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本 书 的 五 位 作者 均 曾 就 职 于 腾讯 ， 分 别 在 不 同 的 部 门 从 事 与 推 荐 系统 相关 的 工作 。 
正 是 因为 “推荐 ”, 我们 相识 相知 。 我 们 不 仅 在 工作 中 成 为 伙伴 , 在 工作 之 余 , 我 们 也 成 
了 非常 好 的 朋友 。 在 一 次 好 友 聊天 中 , 我 们 萌生 写作 本 书 的 想法 , 在 之 后 半年 的 时 间 中 ， 
我 们 各 有 分 工 ， 共同 完 成 了 本 书 的 写作 。 可 以 说 ， 这 本 书 不 仅 是 我 们 知识 的 沉淀 ,也 是 
我 们 友谊 的 见证 。 

推荐 算法 具有 非常 多 的 应 用 场景 和 巨大 的 商业 价值 。 推 荐 算法 种 类 很 多 , 目前 应 用 
最 广泛 的 应 该 是 基于 协同 过 滤 的 推荐 算法 。 在 2016 年 ， 随 着 阿尔 法 围棋 AlphaGo) 大 
放 异 彩 , 新 的 一 波 深度 学 习 浪潮 已 至 。 在 图 像 、 音 频 处 理 等 领域 , 深度 学 习 技术 已 成 为 
当之无愧 的 王者 ; 但 在 推荐 领域 ,深度 学 习 还 处 于 发 展 阶段 。 同 时 ,我 们 在 平时 工作 学 
App, 发 现 市 面 上 并 没有 关于 两 者 相 结 合 的 书籍 , 只 能 在 国外 论文 中 发 现 相 关 的 方法 与 
应 用 。 所 以 , 我 们 决定 以 比较 简单 的 表达 方式 , 通过 总 结 过 往 的 推荐 算法 经 验 ,将 深度 
学 习 相关 的 应 用 介绍 给 更 多 的 读者 。 

为 了 适应 具有 不 同 知识 储备 的 读者 阅读 , 本 书 大 致 可 分 为 四 个 部 分 。 第 1 至 第 3 章 
为 第 一 部 分 , 主要 介绍 深度 学 习 的 基础 知识 。 第 4 至 第 5 章 为 第 二 部 分 , 主要 介绍 了 传 
统 的 推荐 算法 及 问题 。 第 6 章 为 第 三 部 分 , 进一步 介绍 深度 学 习 推荐 技术 。 第 7 章 为 第 
四 部 分 , 介绍 了 如 何在 线 上 实战 搭建 推荐 系统 。 第 三 、 第 四 部 分 是 本 书 的 重点 , 对 于 从 
事 算法 的 工作 者 , 可 以 了 解 到 深度 学 习 技术 与 推荐 算法 的 结合 ; 对 于 从 事 工程 的 工作 者 ， 
可 以 汲取 线 上 搭建 推荐 系统 的 经 验 。 

在 本 书 的 写作 过 程 中 , 得 到 了 很 多 前 辈 同 事 的 帮助 , 包括 傅 鸿 城 、 李 深远 、 刘 黎 春 、 
赵 蔓 、 邱 天 宇 等 领导 、 同 事 都 给 予 了 很 多 宝贵 意见 和 支持 。 没 有 他 们 的 帮助 ,我 们 很 难 
完成 本 书 的 写作 。 

最 后 还 要 感谢 我 们 的 家 人 , 在 写作 本 书 的 过 程 中 , 我 们 几 位 作者 占用 了 大 量 的 家 庭 
时 间 , 感谢 他 们 的 照顾 和 体谅 。 
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i 1x 
什么 是 推荐 系统 


1. 推荐 系统 的 概念 


11.1 ”推荐 系统 的 基本 概念 


随 着 互联 网 行业 发 展 , 我 们 已 进入 一 个 信息 爆炸 的 时 代 。 信 息 爆炸 是 互联 网 赋予 当 
前 时 代 的 特征 , 互联 网 技术 的 发 展 , 带 给 我 们 最 直观 的 感受 是 : 

1. 各 类 商品 花样 繁多 ; 

2. 新 闻 信 息 飞 速 增加 ; 
3. 广告 信息 铺天盖地 ; 
4 
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. 科技 信息 迅猛 递增 ; 

. 个 人 接受 力 严重 “超载 ”。 

以 商品 的 飞速 增长 为 例 , 美国 《 连 线 》 主 编 克 里 斯 。 安德森 在 一 篇 文章 中 首次 提出 
了 “长 尾 ”(The Long Tail) BBO: 商品 销售 呈现 出 长 尾 形状 , 冷门 商品 的 需求 曲线 不 会 
降 到 零点 , 而 且 曲 线 的 尾部 比 头 部 长 得 多 ,他 认为 这 种 丰富 性 和 多 样 性 源 自 全球 化 、 高 
效 供应 链 和 个 性 化 需求 。 无独有偶 , 日 本 著名 营销 专家 营 谷 义 博 也 在 《长 尾 经 济 学 》 中 
提出 了 这 一 概念 。 无 论 如 何 , 在 面 对 这 种 多 样 化 和 丰富 性 的 时 候 , 都 会 让 人 有 些 手 足 无 
措 。 

另外 ， 随 着 大 数据 概念 与 技术 的 普及 ,不 管 是 线 上 APP 平台 ， 还 是 传统 的 线 下 平 
台 , 都 越 来 越 重视 数据 的 收集 , 数据 量 呈 几何 倍数 式 增长 。 国 际 数据 公司 (IDC) 的 研究 


(D KE (The Long Tail) 这 一 概念 是 由 《 连 线 》 杂志 主编 克 里 斯 。 安 德 森 (Chris Anderson) 在 2004 年 10 
月 的 《长 尾 》 一 文中 最 早 提出 , AHR SA Netflix 之 类 网 站 的 商业 和 经 济 模式 。“ 长 尾 ” 实 际 上 是 统计 
“eh 3k ft (Power Laws) 和 帕 累 托 分 布 (Pareto) 特征 的 一 个 口语 化 表达 。 
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结果 表明 ，2008 年 全 球 产 生 的 数据 量 为 0.49ZBD，2009 年 的 数据 量 为 0.8ZB. 2010 年 增 
长 为 1.2ZB, 2011 年 的 数量 更 是 高 达 1.82ZB, 相当 于 全 球 平均 每 人 产生 200GB 以 上 的 数 
Hi. IBM 的 研究 称 , 整个 人 类 文明 所 获得 的 全 部 数据 中 ， 有 90% 是 过 去 两 年 内 产生 的 。 
而 到 了 2020 年 , 全 世界 所 产生 的 数据 规模 将 达到 今天 的 44 倍 之 多 。 

信息 爆炸 与 大 数据 技术 的 普及 , 都 促进 了 个 性 化 推荐 技术 的 快速 发 展 。 所 谓 推 荐 系 
统 , 简 言 之 就 是 根据 用 户 的 偏好 推荐 其 最 有 可 能 感 兴趣 的 内 容 。 以 新 闻 平 台 为 例 , 过 去 主 
要 以 新 浪 新 闻 这 类 中 心 化 内 容 平台 为 代表 ; 而 现在 , 以 今日 头条 为 代表 的 新 闻 APP 均 在 
首页 根据 用 户 偏 好 推送 不 同 内 容 的 定制 化 新 闻 , 推动 了 整个 行业 向 个 性 化 推荐 转型 。 在 
淘宝 、 京 东 、 亚马逊 等 电 商 网 站 的 首页 都 设 有 “ 猜 你 喜欢 ”专区 , 根据 用 户 最 近 浏 览 和 购 
买 的 行为 记录 推荐 商品 。 


ms = 


图 1.1 淘宝 “ 猜 你 喜欢 ”专区 


据 数据 科学 中 心 Data Science Central 统计 ， 对 于 像 亚马逊 @ 和 Netftix 93x ES 
电子 商务 平台 , 推荐 系统 可 能 会 承担 多 达 1096 至 25% 的 增 量 收 入 。 在 新 兴 的 短视 频 领 


(D ZB, 中 文 名 为 泽 字 节 。 外文 名 是 Zettabyte, 计算 机 信息 计量 单位 , 代表 102! 字 节 。 
© 亚马逊 公司 (Amazon, fj ERE 1538; NASDAQ: AMZN), 是 美国 最 大 的 一 家 网 络 电子 商务 公司 , 位 于 华 


盛 顿 州 的 西雅图 。 亚 马 逊 是 网 络 上 最 早 开始 经 营 电子 商务 的 公司 之 一 。 
图 Netflix (Nasdaq NFLXO 成 立 于 1997 年 ， 是 一 家 在 线 影 片 租赁 提供 商 ， 用 户 可 以 通过 PC. TV 及 


iPad. iPhone 收看 电影 、 电 视 节 目 。Netflix 大 奖 赛 从 2006 年 10 AFH. Netflix 公开 了 大 约 1 亿 个 1-5 的 
匿名 影片 评级 ， 比 赛 要 求 参赛 者 预测 Netflix 的 客户 分 别 喜欢 什么 影片 , 把 预测 的 效率 提高 1096 以 上 , 推动 了 推荐 
技术 的 发 展 。 
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R, 以 拌 音 和 快手 为 代表 的 APP. 以 推荐 为 流量 分 发 的 主要 手段 。 在 互联 网 金融 领域 , 各 
大 平台 也 开始 主打 针对 个 人 定制 化 的 千 人 千 面 投资 推荐 。 毫 无 疑问 , 个 性 化 推荐 已 成 为 
所 有 新 闻 、 视 频 、 音 频 、 电 商 、 互 联网 金融 等 相关 平台 的 标 配 。 面 对 日 益 增长 的 推荐 系统 
需求 , 推荐 系统 相关 人 才 的 稀缺 愈加 凸显 。 

本 书 第 四 章 是 针对 推荐 系统 的 初学 者 , 结合 算法 介绍 和 实战 代码 , 帮助 读者 从 无 到 
A 从 零 到 一 , 结构 化 地 掌握 推荐 系统 的 基础 理论 及 实践 经 验 。 首先 , 本 书 会 在 第 四 章 中 
介绍 最 传统 的 基于 内 容 的 推荐 算法 。 这 种 算法 有 效 利用 了 推荐 内 容 自 身 的 特点 , 例如 商 
品 的 类 别 标签 、 新 闻 的 分 类 标签 、 音乐 的 流派 标签 等 , 结合 用 户 的 历史 行为 , 进行 简单 有 
效 的 推荐 。 但 是 这 种 推荐 算法 严重 依赖 物品 的 内 容 标 签 等 相关 数据 ， 如 果 完 全 依靠 人 工 
标注 , 不 仅 工 作 量 大 , 准确 率 也 无 法 保证 ,。 所 以 本 书 作 者 结合 自身 经 验 , 介绍 了 TF-IDF 
等 自动 化 标签 提取 方法 , 以 提升 基于 内 容 推 荐 的 效率 和 准确 率 。 推 荐 系统 的 一 个 主流 分 
支 是 基于 协同 过 滤 的 推荐 算法 。 该 类 推荐 算法 最 早 由 亚 马 进 提出 并 应 用 , 目前 已 成 为 主 
流 推荐 系统 的 核心 技术 。 基于 协同 的 推荐 又 可 细 分 为 基于 记忆 的 协同 过 滤 和 基于 模型 的 
协同 过 滤 。 其 中 基于 记忆 的 协同 过 滤 也 就 是 常 说 的 物品 协同 和 用 户 协同 。 s 
用 最 为 广泛 ,但 是 会 过 于 依赖 历史 数据 ， 当 数据 稀疏 〈 例 如 大 部 分 冷门 长 尾 的 商品 很 少 
被 购买 ， 相 关 的 历史 数据 就 是 稀疏 的 ) 时 ， 推 荐 精准 度 下 降 严重 。 另 外 ， 随 着 用 户 量 和 
商品 量 的 增长 , 系统 性 能 也 会 下 降 。 为 了 解决 这 一 问题 , 本 书 会 进一步 介绍 基于 模型 的 
协同 过 滤 。 最 基础 的 基于 模型 的 协同 过 滤 方 法 , 包括 聚 类 模型 和 贝 叶 斯 网 络 等 , 而 目前 
应 用 最 为 广泛 的 潜在 因子 推荐 方法 , 被 称 为 奇异 值 分 解 (SVDD)。SVD 可 以 有 效 地 对 用 
户 特征 及 物品 特征 进行 降 维 抽象 , 从 而 提升 系统 的 效率 和 准确 度 ; 通过 进一步 考虑 用 户 
的 隐 和 性 行为 和 时 间 变 化 的 维度 , 衍生 出 了 SVD++、time-SVD++、 三 维 矩 阵 分 解 等 方法 。 
同时 , 在 互联 网 化 的 今天 ,本 书 从 社交 网 络 的 角度 去 考虑 推荐 问题 , 包括 基于 领域 和 基 
于 图 的 社会 化 推荐 方法 。 

当然 推荐 系统 往往 不 是 由 单一 算法 组 成 的 , 混合 推荐 系统 是 指 将 多 种 推荐 技术 进行 
混合 , 相互 弥补 缺点 ， 从 而 可 以 获得 更 好 的 推荐 效果 。 本 书 的 第 五 章 会 向 读者 介绍 混合 
推荐 系统 中 的 常用 技术 。 在 混合 推荐 系统 或 其 他 机 器 学 习 项 目 中 , 特征 工程 是 最 重要 的 
一 个 环节 , 它 直 接 决 定 了 模型 的 上 限 。 另 外 , 在 推荐 算法 中 , 除了 基于 协同 算法 应 用 外 ， 
还 会 经 常 把 推荐 问题 转化 为 分 类 问题 , 例如 使 用 逻辑 回归 、 和 迭代 决策 树 等 分 类 预测 模型 
进行 CTR 预测 。 不同 于 基于 物品 /用 户 的 协同 ,分 类 预测 模型 更 加 依赖 于 特征 的 处 理工 


QD 奇异 值 分 解 (singular value decomposition) 是 线性 代数 中 一 种 重要 的 矩阵 分 解 , 在 信号 处 理 、 统 计 学 等 领 
域 有 重要 应 用 。 


4 | 推荐 系统 与 深度 学 习 


TER US. 

在 算法 理论 的 基础 上 ,本 书 将 在 第 七 章 中 结合 作者 多 年 工作 实践 经 验 , 进一步 从 推 
荐 系统 常见 架构 、 常 用 组 件 以 及 常见 问题 等 方面 , 指导 读者 如 何 搭建 一 个 线 上 高 并 发 可 
用 的 推荐 系统 。 


1.1.2 ”深度 学 习 与 推荐 系统 


深度 学 习 (Deep Learning) 的 概念 源 于 人 工 神经 网 络 的 研究 , 是 通过 探究 学 习 低 层 特 
征 组 合成 抽象 的 高 层 特征 , 来 解决 分 类 预测 问题 。 深 度 学 习 的 概念 由 Hinton EKF 
2006 FHH, 主要 是 使 用 深度 置信 网 络 (DBN) 进行 非 监督 贪心 逐 层 训 练 ， 随 后 提出 多 
层 自动 编码 器 深层 结构 。 另 外 Lecun 等 大 师 提 出 的 卷 积 神经 网 络 (CNN) 是 第 一 个 真正 
的 多 层 结构 学 习 算法 , 现在 被 广泛 应 用 于 图 像 处 理 领 域 。2016 F, 让 国内 乃至 世界 真正 


认识 到 深度 学 习 重 要 性 的 是 阿尔 法 围棋 (AlphaGo), 它 由 谷歌 (Google) 旗下 DeepMind 
公司 戴 密斯 。 哈 萨 比 斯 领衔 的 团队 开发 。 我 们 从 百度 搜索 指数 上 也 可 以 看 到 , 深度 学 习 
在 逐渐 赶 超 机 器 学 习 , 成 为 最 热门 的 研究 课题 。 


* 深度 学 习 a 机 器 学 习 平均 值 
搜索 指数 2300 


1-34 4-6H 7-94 10-12 月 ” 2016 年 1-3 月 4-67 7-9 月 10-12 月 2017 年 1-3 月 4-6 月 7-9 月 


图 1.2 百度 指数 


严格 来 说 , 深度 学 习 只 是 机 器 学 习 的 一 个 研究 分 支 , 但 之 所 以 被 单独 挑选 出 来 作为 
课题 研究 , 是 因为 深度 学 习 较 传统 的 浅 层 学 习 在 方法 和 思维 上 是 一 次 技术 革命 。 下 面具 
体 看 一 下 深度 学 习 的 发 展 历史 。 

20 世纪 80 ERR, 用 于 人 工 神经 网 络 的 反 向 传播 算法 的 发 明 , 给 机 器 学 习 带 来 了 第 
一 次 浪潮 , 它 激发 大 量 的 学 者 开始 进行 机 器 学 习 领域 的 研究 。 神经 网 络 正 是 深度 学 习 的 

(D Geoffrey Hinton 被 尊称 为 “神经 网 络 之 父 ”,， 他 将 神经 网 络 带 入 到 研究 与 应 用 的 热 湖 , 将 “深度 学 习 ” 从 边 
缘 课 题 变 成 了 谷歌 等 互联 网 巨头 仰赖 的 核心 技术 ,并 将 HintonBack Propagation ( 反 向 传播 ) 算法 应 用 到 神经 网 
络 与 深度 学 习 , 还 提出 了 “Dark Knowledge" 概念。 曾 获得 爱丁堡 大 学 人 工 智能 的 博士 学 位 , 并且 为 多 伦 多 大 学 的 


特聘 教授 。 在 2012 Æ, Hinton 还 获得 了 加 拿 大 基 廉 奖 (Killam Prizes, 有 “加 拿 大 诺 贝尔 奖 ” 之 称 的 国家 最 高 科 
学 奖 )。2013 4, Hinton 加 入 谷歌 并 带领 一 个 AI 团队 , 目前 正 进行 着 谷歌 大 脑 的 项 目 。 
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雏形 。 但 是 基于 反 向 传播 的 人 工 神 经 网 络 逐 渐 淡 出 ,主要 原因 包括 以 下 几 个 方面 。 

(1) 神经 网 络 过 拟 合 比较 严重 ， 导 致 模型 实践 效果 不 佳 。 

(2) 模型 参数 比较 难 调 , 没有 完整 的 方法 论 指导 。 

(3) 训练 速度 慢 且 训练 数据 不 足 , 影响 模型 效果 。 

到 了 20 世纪 90 年代, 其 他 各 种 各 样 的 浅 层 机 器 学 习 模型 相继 被 提出 , 比如 支撑 向 量 
机 (Support Vector Machines, SVM). Boosting, 回归 方法 (例如 逻辑 回归 Logistic Regres- 
sion, LR) 等 。 这 些 模型 的 结构 基本 上 可 以 看 成 带 有 一 层 隐 层 节点 (如 SVM, Boosting), 
或 没有 隐 层 节点 (如 LR)。 这 些 模型 直至 今天 仍 被 广泛 利用 , 在 本 书 第 四 章 中 对 此 也 有 
一 些 相关 的 介绍 。 

随 着 技术 的 发 展 , 一 方面 机 器 的 运算 速度 以 几何 级 数 增长 ; 另 一 方面 , Hinton 和 Ben- 
gio. Yann LeCun 等 机 器 学 习 泰 斗 也 研究 提出 了 一 套 实际 可 行 的 Deep Learning 框架 。2006 
年 ，Hinton 和 他 的 学 生 Ruslan Salakhutdinov 在 国际 项 级 学 术 期 刊 《 科 学 》 上 发 表 了 一 
篇 文章 ， 重 新 掀起 了 深度 学 习 在 学 术 界 和 工业 界 的 浪潮 。 这 篇 文章 有 两 个 主要 的 信息 : 
多 隐 层 的 人 工 神 经 网 络 具有 优异 的 特征 学 习 能 力 , 学 习 得 到 的 特征 对 数据 有 更 本 质 的 刻 
画 ， 从 而 有 利于 可 视 化 或 分 类 ; 深度 神经 网 络 在 训练 上 的 难度 , 可 以 通过 “ 逐 层 初始 化 ” 
(Layer-wise Pre-training) 来 有 效 克 服 。 

自 此 , 深度 学 习 成 为 不 可 忽视 的 力量 , 重新 出 现在 历史 舞台 上 , 在 图 像 处理 、 语 音 识 
别 、 语 义理 解 等 领域 开始 大 放 光 彩 。AlphaGo 的 横 空 出 世 , 更 是 让 深度 学 习 走 向 令 人 瞩 
目的 焦点 位 置 。 同 时 , 最 近 几 年 深度 学 习 模型 也 开始 逐步 在 推荐 领域 得 到 利用 , 特别 是 
KA RAR RAL (embedding models) 。 词 嵌入 表示 模型 最 早 应 用 在 自然 语言 处 理 领 域 中 ， 
利用 背景 信息 构建 词汇 的 分 布 式 表示 。 媒 入 式 表示 模型 往往 简单 而 又 相对 比较 有 效 ， 因 
此 很 快 被 人 们 应 用 到 推荐 系统 中 。 其 核心 思想 就 是 同时 构建 用 户 和 物品 的 嵌入 式 表示 ， 
使 得 多 种 实体 的 嵌入 式 表示 存在 于 同一 个 隐 含 空间 内 , 进而 可 以 计算 两 个 实体 之 间 的 相 
似 性 。 例 如 图 1.3 F, 我 们 使 用 词 嵌 入 模型 对 歌曲 进行 向 量化 表达 , 可 以 看 到 向 量化 后 ， 
相同 流派 的 歌曲 聚集 程度 更 高 。 

不 仅 在 词 嵌 入 模型 上 , 在 解决 特征 维度 灾难 、 特 征 组 合 等 方面 ， 深 度 神经 网 络 模型 
也 有 着 巨大 的 优势 。RNN、LSTM 等 时 序 模 型 的 引入 ,也 能 更 好 地 处 理 用 户 的 行为 序列 
问题 。 

本 书 第 二 章 是 深度 学 习 入 门 篇 , 会 介绍 深度 学 习 的 基础 概念 以 及 基础 感知 机 模型 的 
推导 过 程 。 在 第 三 章 中 ,本 书 会 介绍 TensorFlow (Google 研发 的 开源 深度 学 习 平 台 ) 的 
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安装 使 用 方法 , 并 带领 读者 写 出 第 一 段 TensorFlow 代码 。 
TSNE 抽 样 可 视 化 结果 


图 1.3 歌曲 词 嵌入 模型 空间 向 量 


在 第 六 章 中 ,鉴于 读者 已 经 对 推荐 算法 有 了 一 定 的 了 解 ， 本 书 会 介绍 深度 学 习 技 术 
在 推荐 系统 领域 的 发 展 与 应 用 。 从 DNN 到 RNN 再 到 GAN, 读者 将 在 这 一 章 中 由 浅 入 
深 地 了 解 到 主流 的 深度 学 习 模型 。 其 中 部 分 算法 来 源 于 最 近 在 国外 学 术 期 刊 上 发 表 的 文 
章 , 是 业内 前 沿 的 算法 。 


第 2 章 
深度 神经 网 络 


2.1 ”什么 是 深度 学 习 


大 部 分 读者 第 一 次 听 到 或 接触 深度 学 习 的 概念 ， 可 能 都 是 源 于 2016 年 Google 在 
Nature 杂 志 上 正式 公开 发 表 论 文 ， 文 中 宣布 其 以 深度 学 习 技术 为 基础 的 计算 机 程序 Al- 
phaGo, 在 2015 年 10 月 与 人 类 的 围棋 对 局 中 , 连续 五 局 击败 欧洲 冠军 、 职 业 二 段 梦 辉 ， 
是 AI 击败 人 类 智慧 的 一 个 新 的 里 程 碑 。 深 度 学 习 往 往 会 给 读者 带 来 高 深 、 复 杂 的 感觉 ， 
但 事实 上 正好 相反 , 深度 学 习 并 不 是 新 提出 的 概念 , 它 的 历史 几乎 和 人 工 智 能 的 历史 一 
样 长 。 只 不 过 , 在 过 去 数 十 年 里 , 深度 学 习 及 相关 的 人 工 神经 网 络 技术 由 于 数据 量 不 足 、 
计算 能 力 不 足 等 多 种 原因 没有 展示 出 它 的 实力 。2000 年 后 , 随 着 计算 机 产业 的 发 展 , 计 
算 性 能 、 处 理 能 力 大 幅 提 高 , 尤其 是 以 谷歌 为 代表 的 前 沿 企业 在 分 布 式 计算 上 取得 了 深 
厚 积 累 , 成 千 上 万 台 计 算 机 组 成 的 大 规模 计算 集群 早已 不 再 是 稀有 资源 。 而 互联 网 产业 
的 发 展 则 使 搜索 引擎 、 电 子 商 务 等 公司 聚集 了 数 以 亿 计 的 高 质量 数据 。 简 而 言 之 , 数据 
量 和 计算 能 力 已 完成 它们 的 技术 储备 , 为 深度 学 习 的 出 场 打 下 了 良好 的 基础 。 


2.1.1 深度 学 习 的 三 次 兴起 


说 到 深度 学 习 , 那么 就 不 得 不 提神 经 网 络 的 概念 。 事 实 上 深度 学 习 中 主流 的 网 络 结 
构 DNN, CNN. RNN 都 是 在 基础 神经 网 络 上 发 展 衍生 出 来 的 。 我 们 回顾 一 下 神经 网 络 
发 展 的 历程 。 神 经 网 络 的 发 展 也 经 历 了 数 次 大 起 大 落 : 从 单 层 神经 网 络 〈 感 知 器 ) 开始， 
到 包括 一 个 隐藏 层 的 两 层 神经 网 络 ， 再 到 多 个 隐藏 层 的 深度 神经 网 络 ， 主 要 经 历 了 三 次 
兴起 过 程 , 详 见 图 2.1 所 示 。 图 中 的 顶点 与 谷底 可 以 看 作 神 经 网 络 发 展 的 高 峰 与 低谷 。 横 
轴 是 时 间 ， 以 年 为 单位 ， 而 纵 轴 是 一 个 神经 网 络 影响 力 的 示意 表示 。 
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图 2.1 神经 网 络 的 三 次 兴起 


神经 网 络 发 展 的 第 一 次 高 潮 期 ,为 感知 器 模型 和 人 工 神经 网 络 的 提出 。1957 年 , 计 
算 机 专家 Frank Rosenblatt 开始 从 事 感知 器 的 研究 。 感知 器 是 一 种 多 层 的 神经 网 络 ， 后 
续 由 Frank Rosenblatt 制 成 相关 硬件 , 通常 被 认为 是 最 早 的 神经 网 络 模型 。 这 项 工作 首 
次 把 人 工 神 经 网 络 的 研究 从 理论 探讨 付 诸 工 程 实践 。 当 时 世界 上 许多 实验 室 仿效 制作 感 
知 机 ,分 别 应 用 于 文字 识别 、 声 音 识别 、 声 呐 信 号 识别 以 及 学 习 记 忆 问 题 的 研究 。1959 
年 ， 两 位 电机 工程 师 Bernard Widrow 和 Marcian Haff 开发 出 一 种 叫 作 自 适 应 线性 单元 
(ADALINE) 的 网 络 模型 并 在 他 们 的 论文 4daptive Switching Circuits 中 描述 了 该 模型 及 
其 学 习 算 法 (Widrow-Haf 算 法 )。 该 网 络 通过 训练 , 可 以 成 功用 于 抵消 通信 中 的 回 波 和 噪 
E, 也 可 用 于 天 和 气 预报 , 成 为 第 一 个 应 用 于 实际 问题 的 神经 网 络 。 然 而 在 1969 年 , Marvin 
Minsky 和 Seymour Papert 合 著 了 一 本 书 《Perception》, 分 析 了 当时 的 简单 感知 器 , 指出 
它 有 非常 严重 的 局 限 性 ,甚至 不 能 解决 简单 的 “ 异 或 ”问题 , 算是 对 Rosenblatt 的 感知 
器 判 了 “死刑 ” 此 时 相关 的 批评 声音 高 涨 , 导致 了 政府 停止 提供 人 工 神 经 网 络 研究 所 需 
的 大 量 投资 。 不 少 研究 人 员 把 注意 力 转 向 了 其 他 的 人 工 智能 方向 ,导致 人 工 神经 网 络 的 
研究 陷入 低潮 。 

第 二 次 高 潮 期 是 Hopfield 网 络 模 型 的 出 现 和 人 工 神 经 网 络 的 复苏 。 随 着 人 们 对 感知 
器 兴趣 的 衰退 ,神经 网 络 的 研究 沉寂 了 相当 长 的 时 间 。 直 到 1984 4, Hopfield 设计 研制 
了 后 来 被 人 们 称 为 Hopfield 网 络 模型 的 电路 ， 较 好 地 解决 了 TSP 问题 ,找到 了 最 优 解 
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的 近似 解 ， 引 起 了 较 大 秦 动 。1985 年 ，Hinton 、Sejnowsky、Rumelhart 等 研究 者 在 Hop- 
field 网 络 中 引入 随机 机 制 ， 提 出 了 所 谓 的 Bolziman 机 。1986 年 ，Rumelhart 等 研究 者 
独立 地 提出 多 层 网 络 的 学 习 算 法 BP 算法 , 较 好 地 解决 了 多 层 网 络 的 学 习 问 题 。 人 们 重 
新 认识 到 神经 网 络 的 威力 以 及 付 诸 应 用 的 现实 性 。 随 后 , 一 大 批 学 者 和 研究 人 员 围 绕 着 
Hopfield, Hinton 等 提出 的 方法 展开 了 进一步 的 工作 , 形成 了 80 年 代 中 期 以 来 人 工 神经 
网 络 的 研究 热潮 。1990 年 12 月 , 国内 首届 神经 网 络 大 会 在 北京 成 功 举行 。 

第 二 轮 高 潮 之 后 , 神经 网 络 的 发 展 就 又 进入 了 新 的 瓶颈 期 ,甚至 有 有 段 时 间 影响 力 还 
不 如 支持 向 量 机 (SVM)。 不 过 Hinton 等 人 于 2006 年 提出 了 深度 学 习 的 概念 ，2009 年 
Hinton 把 深层 神经 网 络 介绍 给 语音 领域 的 研究 者 们 ， 然 后 2010 年 语音 识别 就 取得 了 巨 
大 突破 。 接 下 来 2011 年 CNN 又 被 应 用 在 图 像 识 别 领域 , 取得 的 成 绩 令 人 瞩目 。2015 年 
LeCun, Bengio 和 Hinton 三 位 大 牛 在 Nature 上 刊 发 了 一 篇 综述 , 题 为 Deep Learning, iX 
标志 着 深度 神经 网 络 不 仅 在 工业 界 获得 成 功 , 而 且 已 真正 被 学 术 界 所 接受 。 

2016 年 与 2017 年 应 该 是 深度 学 习 全 面 爆 发 的 两 年 , Google 推出 的 AlphaGo 和 Alpha 
Zero, 经 过 短暂 的 学 习 就 完全 碾 压 当今 世界 排名 前 三 的 围棋 选手 ; 科大 讯 飞 推出 的 智能 
语音 系统 ,识别 正确 率 高 达 97% Wh, 该 公司 也 摇身一变 成 为 AI 的 领跑 者 ; 百度 推出 
的 无 人 驾驶 系统 Apollo 也 顺利 上 路 完成 公测 ,使 得 共享 汽车 离 我 们 越 来 越 近 。AI 领域 
取得 的 种 种 成 就 让 人 类 再 次 认识 到 神经 网 络 的 价值 和 魅力 。 


2.1.2 ”深度 学 习 的 优势 


目前 , 深度 学 习 技术 已 经 在 许多 方面 渗透 到 日 常生 活 当 中 ， 比 如 电子 商务 网 站 上 的 
推荐 系统 、 搜 索引 擎 等 。 此 外 , 它 越 来 越 多 地 应 用 到 智能 手机 、 照 相机 等 消费 类 产品 中 ， 
例如 , 识别 图 像 中 的 物体 , 把 语音 转换 成 文本 、 对 新 闻 和 商品 进行 个 性 化 推荐 并 生成 相 
关 的 搜索 结果 等 。 这 些 应 用 的 成 功 大 部 分 得 益 于 近年 来 深度 学 习 的 发 展 。 

与 传统 的 机 器 学 习 和 模式 识别 技术 相 比 , 深度 学 习 在 数据 表示 方面 有 很 大 贡献 。 在 
过 去 , 构建 模式 识别 或 者 机 器 学 习 系 统 需要 精心 的 工程 设计 和 专业 的 领域 知识 来 设计 特 
征 , 将 原始 数据 转换 成 合适 的 特征 表示 , 输入 到 机 器 学 习 系统 中 。 而今 , 深度 学 习 允 许 通 
过 多 个 处 理 层 来 学 习 具 有 抽象 能 力 的 数据 表示 ， 所 以 深度 学 习 拥有 更 强大 的 学 习 能 力 。 
图 2.2 说 明了 随 着 网 络 层 数 的 增添 ， 以 及 激活 函数 的 调剂 , 神经 网 络 所 能 拟 合 的 决策 分 
界 平面 的 能 力 。 从 图 中 可 以 看 出 , 随 着 网 络 层 数 的 增加 ,其 非 线性 分 界 拟 合 能 力 不 断 增 
强 ( 图 中 的 分 界线 其 实 不 代表 真实 训练 取得 的 效果 ， 更 多 的 是 示意 效果 )。 神 经 网 络 的 
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钻研 与 利用 之 所 以 能 够 不 断 地 蓬勃 发 展 , 与 其 强大 的 函数 拟 合 能 力 是 密 不 可 分 的 。 固然 ， 
仅 有 强大 的 内 在 能 力 , 并 不 一 定 能 取得 胜利 。 一 个 胜利 的 技术 与 策略 , 不 但 需要 内 因 的 
作用 ,还 需要 时 势 与 环境 的 配合 。 神 经 网 络 发 展 背 后 的 外 在 条 件 可 以 被 总 结 为 : 更 强 的 
计算 能 力 、 更 多 的 数据 , 以 及 更 好 的 训练 策略 。 只 有 满足 这 些 前 提 时 , 神经 网 络 的 函数 拟 
合 能 力 才能 得 以 体现 ( 见 图 2.3)。 这 些 外 在 条 件 的 进步 极 大 地 推进 了 许多 现 有 领域 的 发 
展 , 比如 语音 识别 、 视觉 分 类 、 物体 检测 以 及 药物 发 现 等 。 深度 学 习 的 灵感 来 源 于 脑 科 学 


单 层 神经 网 络 两 层 神经 网 络 多 层 神经 网 络 


网 络 结构 : 3E — A = SOE 
sgn sigmoid LU 
激活 函数 : = dec 
A B, 


异 或 问题 ， 


pe, 
复杂 问题 : 
单 层 神经 网 络 两 层 神经 网 络 多 层 神 经 网 络 
(60-70) (85-95) (2010-) 
计算 能 力 : 晶体 管 CPU 集群 或 GPU 
数据 量 : 1-10 1K-10K 1M-100M 
算法 : 学 习 算法 BP 算法 De 


图 2.3 不 同 层 数 的 神经 网 络 表示 能 力 
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和 生物 科学 , 通过 反 向 传播 算法 来 发 现 大 型 数据 中 的 复杂 结构 并 更 新 模型 内 部 参数 。 目 


前 , 深度 卷 积 网 络 在 处 理 图 像 、 视 频 、 语 音 等 方面 都 取得 了 突破 。 此 外 , 循环 神经 网 络 对 
时 序数 据 ， 比 如 文本 和 语音 的 处 理 也 取得 显著 效果 。 


2.2 ”神经 网 络 基础 


神经 网 络 技术 是 深度 学 习 的 基础 。 所 以 本 节 我 们 先 介 绍 神经 网 络 中 sigmoid 函数 、 损 
失 函 数 ， 以 及 正 向 传播 与 反 向 传播 的 概念 。 神 经 网 络 的 基本 结构 如 图 2.4 所 示 。 


hw,(x) 


网 络 第 3 层 


十 1 


网 络 第 1 层 网 络 第 2 层 
2.4 神经 网 络 的 基本 结构 


2.4 中 每 个 圆圈 表示 一 个 神经 元 , 每 条 线 表示 神经 元 之 间 的 连接 。 我们 可 以 看 到 ， 
图 中 的 神经 元 被 分 成 了 多 层 ， 层 与 层 的 神经 元 之 间 有 连接 ,而 层 内 的 神经 元 之 间 没 有 连 
接 。 最 左边 的 层 叫 作 输入 层 ， 该 层 负责 接收 输入 数据 ; 最 右边 的 层 叫 作 输出 层 ， 我 们 可 
以 从 该 层 获取 神经 网 络 输出 数据 。 输 入 层 和 输出 层 之 间 的 层 叫 作 隐 藏 层 。 隐 藏 层 比较 多 
(大 于 2) 的 神经 网 络 叫 作 深度 神经 网 络 。 而 深度 学 习 ， 就 是 使 用 深层 架构 〈 比 如 深度 神 
经 网 络 ) 的 机 器 学 习 方 法 。 


2.2.1 ”神经 元 
为 了 理解 神经 网 络 , 我 们 应 该 首先 理解 神经 网 络 的 组 成 单元 一 一 神经 元 。 神 经 元 也 
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叫 作 感知 器 。 感 知 器 算法 在 20 世纪 50~70 年 代 很 流行 ,也 成 功 解决 了 很 多 问题 。 感 知 器 
算法 是 非常 简单 的 。 图 2.5 说 明 的 即 是 一 个 感知 器 。 
输入 ”权重 


乘 以 权重 后 求 和 ”激活 函数 


图 2.5 感知 器 算法 
可 以 看 到 , 一 个 感知 器 有 如 下 组 成 部 分 : 


WAME 一 个 感知 器 可 以 接收 多 个 输入 z1,7z2,… , zn。 每 个 输入 上 有 一 个 权 值 wi 此 
外 还 有 一 个 偏 置 项 b, 即 上 图 中 的 woo 


激活 函数 ”感知 器 的 激活 函数 可 以 有 很 多 选择 ， 比 如 我 们 可 以 选择 下 面 这 个 阶 跃 函数 f 
来 作为 激活 函数 : 
f(z) = max(z, 0) (2-1) 


输出 感知 器 的 输出 由 下 面 的 公式 计算 : 


y = f(wz +b) (2-2) 


2.2.2 ”神经 网 络 


通过 对 神经 元 的 介绍 , 神经 网 络 就 不 难 理解 了 。 神经 网 络 其 实 就 是 按照 一 定 规则 连 
接 起 来 的 多 个 神经 元 。 图 2.6 展示 了 一 个 全 连接 (full connected, FC) 神经 网 络 。 通 过 观 
察 , 可 以 发 现 它 的 规则 , 具体 包括 : 

e 神经 元 按照 层 来 布局 。 最 左边 的 层 叫 作 输 入 层 ， 负责 接 收 输 入 数据 ; 最 右边 的 层 叫 
作 输 出 层 , 我 们 可 以 从 该 层 获取 神经 网 络 输 出 数据 。 输 入 层 和 输出 层 之 间 的 层 叫 作 
隐藏 层 , 因为 它们 对 于 外 部 来 说 是 不 可 见 的 。 

e 同一 层 的 神经 元 之 间 没有 连接 。 
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。 第 N 层 的 每 个 神经 元 和 第 N-1 层 的 所 有 神经 元 相连 接 (这 就 是 full connected 的 含 
SO), 第 N-1 层 神 经 元 的 输出 就 是 第 N 层 神 经 元 的 输入 。 
。 每 个 连接 都 有 一 个 权 值 。 
上 面 这 些 规则 定义 了 全 连接 神经 网 络 的 结构 。 事 实 上 还 存在 很 多 其 他 结构 的 神经 网 
络 , 比如 卷 积 神经 网 络 (CNN)、 循环 神经 网 络 (RNN), 它们 各 自 具 有 不 同 的 连接 规则 。 


隐藏 层 
图 2.6 三 层 全 连接 神经 网 络 


2.2.8 difti 


在 神经 网 络 中 , 有 了 样本 的 输入 和 权重 参数 , 我 们 就 可 以 通过 正 向 传播 求 得 输出 值 。 
然而 ， 输 出 值 一 般 会 与 预测 值 差异 很 大 ， 这 是 因为 网 络 层 的 权重 是 我 们 随机 初始 化 的 ， 
此 时 的 网 络 还 不 具备 预测 分 类 功能 。 为 了 校正 网 络 的 权重 , 这 时 候 就 要 利用 神经 网 络 反 
向 传播 的 算法 ,修正 权重 参数 ,使 输出 值 逼近 目标 值 。 类似 机 器 学 习 的 优化 算法 ,我 们 
通常 采用 反 向 传播 的 方法 来 更 新 梯度 ， 从 而 达到 最 小 化 损失 函数 值 的 目的 。 反 向 传播 算 
法 是 一 种 基于 微 积分 链 式 求 导 的 递归 算法 。 假 如 y = g(z; 0), 其 中 9 是 模型 参数 , 我 们 可 
以 通过 梯度 vog 来 更 新 模型 参数 0。 

举例 来 说 , 假设 我 们 有 函数 y = (2z + 3)?, 我们 对 计算 0y/0 感 兴趣 , 在 传统 的 神 
经 网 络 中 , z 一 般 是 包含 输入 数据 和 网 络 参 数 的 向 量 , y 是 总 的 损失 。 为 了 表述 清晰 , 我 
们 引入 中 间 变 量 , a = 2z, b = a +3, y = P, 每 个 和 输入 有 关 的 中 间 变 量 可 以 很 容易 求 
导 , 8a/az = 2, 0b/0a = 1, 0y/0b = 2b, 一 旦 我 们 得 到 这 些 导数 , 我 们 能 够 很 容易 通过 链 
式 法 则 ou = ou oa KH 9y/Bzr。 

考虑 多 标签 分 类 问题 , 给 定 训练 集合 {(11,y1) , (zn,yn)}, 其 中 tn € RP 是 第 n 个 
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样本 的 p 维特 征 , yn € {0,1}° 是 第 ”个 样本 的 C ERKI. 假设 每 个 类 别 服从 二 项 式 分 
布 , 那么 每 个 样本 的 目标 函数 写成 


c 
- Y uilog(aj?) + (1 — yi) log(1 — a*?) (2-3) 


其 中 , ai 是 每 个 样本 在 最 后 一 层 的 输出 , y; € (0,1) 表示 每 个 样本 第 i 个 类 别 是 否 存在 。 
假定 我 们 有 基于 全 连接 的 多 层 神经 网 络 ， 每 层 的 输出 采用 sigmoid 函数 激活 ， 那 么 
可 以 得 到 下 面 的 递 推 公式 : 


二 wijs alt! = sigmoid(z1*!) (2-4) 


其 中 , A 表示 第 1+ 1 层 第 i 个 神经 元 的 输出 值 , wy 代表 第 ! 层 神经 元 a 和 第 +1 
层 神经 元 z+! 的 连接 权重 。 

如 果 对 低层 的 网 络 参数 求 导 ， 比 如 对 第 L— 1 层 的 参数 wit 求 导 , 通常 采用 下 面 的 递归 
RIAR: 


__ôz Y 8J Oz dal 
20d i Ozit! dat Oz} 

dat 0J Bal+l az!+} dal 
= Oud wn di Er dal Bet 


Se era) aay HC — abt) (25 - 25) 
= ag" at" — yiwi (2501 — 23) 


(2-5) 


其 中 ， z} b» aj wi, al, = sigmoid(z/) 反复 采用 式 (2-5), 我 们 可 以 对 每 个 参数 求 导 ， 
并 更 新 所 有 的 网 络 参 数 。 
2.2.4 ”优化 算法 


深度 神经 网 络 具 有 非常 强 的 表征 能 力 , 它 是 高 维 非 线性 的 非 凸 模型 , 对 于 非 凸 问题 ， 
在 多 项 式 时 间 内 很 难 找到 全 局 最 优 解 。 此 外 , 深度 神经 网 络 还 有 训练 数据 多 、 参数 多 、 网 
络 结构 复杂 、 容易 过 拟 合 等 问题 , 使 得 网 络 参数 很 难 优化 。 
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2.2.4.1 网 络 参数 初始 化 


深度 网 络 的 模型 参数 都 是 采用 梯度 下 降 算法 来 更 新 的 。 本质 上 , 它 是 一 种 迭代 更 新 
算法 , 需要 在 迭代 更 新 前 对 每 个 参数 进行 初始 化 。 不 过 初始 化 的 选择 在 高 维 非 凸 优化 问 
题 中 是 非常 重要 的 。 如 果 初 始 化 参数 太 小 , 在 网 络 训练 过 程 中 前 馈 和 反馈 的 信号 可 能 会 
丢失 ， 导 致 神经 元 之 间 没 有 区 分 。 如 果 参 数 过 大 ， 可 能 会 导致 梯度 失控 爆炸 等 问题 ， 从 
而 影响 模型 的 收敛 性 。 所 以 ,选择 合适 的 方法 初始 化 网 络 参数 是 非常 有 必要 的 。 初 始 化 
网 络 参数 通常 有 下 面 几 种 方法 。 


OD 高 斯 分 布 初始 化 。 参 数 服 从 固定 均值 和 方差 的 高 斯 分 布 进行 随机 初始 化 , 也 可 以 考 
虑 输入 和 输出 神经 元 的 数量 ， 分 别 记 作 nin 和 nou: 


W~N (0. N zx) (2-6) 
Nin + Nout 


(2) 均匀 分 布 初始 化 。 参 数 服 从 U [-a, a] 的 均匀 分 布 进行 随机 初始 化 , 也 可 以 考虑 输入 


神经 元 的 数量 nin: ao 
w~u(-~=./=) (2-7) 


(3) Xavier 初始 化 。 参 数 服从 Ula, a] 的 均匀 分 布 进行 随机 初始 化 , 目的 是 让 输入 和 输 
出 神经 元 的 方差 尽量 一 致 其 中 , a 通过 推导 得 出 


w~vu(-y i uc ) (2-8) 
Nin c Nout V Nin + Nout 


2242 学 习 率 的 选择 

除了 网 络 参数 初始 化 问题 , 选择 合适 的 学 习 率 也 是 困难 的 。 学 习 率 太 小 导致 收敛 组 
慢 , 而 学 习 率 太 大 会 阻碍 收敛 并 导致 损失 函数 在 最 小 值 附近 波动 或 者 发 散 。 而 模拟 退火 
算法 可 以 以 一 定 的 概率 来 接受 一 个 比 当前 解 要 差 的 解 , 因此 有 可 能 会 跳出 这 个 局 部 的 最 
优 解 , 达到 全 局 的 最 优 解 。 因 此 ， 深 度 网 络 通常 采用 模拟 退火 的 方法 在 训练 期 间 动 态 调 
整 学 习 率 。 模 拟 退 火 算法 的 学 习 率 又 包括 反 向 衰减 学 习 率 和 指数 衰减 学 习 率 ， 具体 定义 
方法 如 下 。 


OD 反 向 衰减 学 习 率 。 假 设 初始 化 学 习 率 为 p y 是 衰减 系数 , t 是 迭代 次 数 , 反 向 衰减 
可 以 定义 为 


e(t) = IT (2-9) 
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指数 衰减 学 习 率 ”类似 地 , 指数 衰减 可 以 定义 成 


e(t) (2-10) 


zs. 
exp(t 7) 
但 是 , 固定 衰减 的 模拟 退火 方法 不 能 直接 泛 化 到 多 个 数据 集 上 , 我 们 也 不 希望 采用 相同 
的 频率 和 步 长 来 更 新 所 有 的 网 络 参数 ， 所 以 自 适应 调整 学 习 率 AdadeltaD 被 提出 ,这 些 
方法 给 每 个 参数 设置 不 同 的 自 适应 学 习 率 。 
下 面 , 我 们 将 介绍 在 深度 学 习 社 区 广泛 使 用 的 优化 算法 , 但 有 些 优 化 算法 ， 比 如 二 
阶 方法 中 的 牛顿 法 , 在 高 维 数据 集 的 实践 中 是 不 可 行 的 。 


(2) 动量 方法 。 该 方法 采用 累计 梯度 来 蔡 代 当前 时 刻 的 梯度 。 直观 上 讲 , 动量 方法 类 似 
把 球 推 下 山 , 球 在 下 坡 时 积累 动力 , 在 途中 速度 变 得 越 来 越 快 。 如果 某 些 参数 在 连续 时 
间 内 梯度 方向 不 同 ,那么 动量 会 变 小 。 相 反 ， 如果 在 连续 时 间 内 梯度 方向 一 致 那么 动 
量 会 增 大 。 因 此 , 动量 法 可 以 更 快速 地 收敛 并 减少 目标 函数 的 震荡 。 


Vt = quai — n7 VoI (9; Tiitn, Yiitn) 
0—0—u 


其 中 , 动量 参数 7 通常 被 设置 成 0.9, 7 是 梯度 更 新 的 步 长 。 


(a) SGD without momentum (b)SGD with momentum 
(无 动量 的 随机 梯度 下 降 ) (有 动量 的 随机 梯度 下 降 ) 


图 2.7 动量 对 比 


(2-11) 


(3) RMSprop. 该 方法 是 Hinton 提出 的 , 可 以 自 适 应 调整 每 个 参数 的 学 习 率 。 此外, 该 
方法 也 可 以 克服 学 习 率 过 早衰 减 等 问题 。 
ve = Bui + (1— B)V3I (O; Tiitn, Yiitn) (2-12) 


其 中 , 8 是 衰减 系数 , 通常 取 0.9。 


(D Zeiler, M. D. (2012). ADADELTA: An Adaptive Learning Rate Method. Retrieved from http://arxiv. 
0rg/abs/1212.5701. 
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梯度 更 新 公式 : 
a 
biyi = Q — IT * VoJ(0; Tiitn, Yizitn) (2-13) 


(4) 自 适应 矩 估 计 。 该 方法 可 以 自 适 应 调整 每 个 参数 的 学 习 率 , 可 以 看 成 是 RMSprop 和 
动量 方法 的 结合 。 

m, = Byma i + (1 — Bi) VoJ(0; Tiitn, Yiritn) 

Ut = Bove-1 + (1 — Bo) V2J(6; Lizin; Yizitn) 
EP, m, 和 wi 分别 是 梯度 一 阶 矩 (均值 ) 和 二 阶 矩 (方差 ) 的 估计 。 假 设 Mo = 0, Go = 
0, 8, 和 b 接近 1 时 ，M 和 Gi 离 真实 值 偏差 很 大 。 所 以 要 对 M 和 Gi 进行 矫正 : 


(2-14) 


dione. 
i 1 P (2-15) 
ti = 1-5 
梯度 更 新 公式 : 
Get1= 06 — JV (2-16) 


通常 , bı = 0.9, Bo = 0.999, e = 1075. 


2.3 ” 卷 积 网 络 基础 


卷 积 网 络 和 普通 神经 网 络 非 常 相似 : 它们 都 由 一 系列 神经 元 组 成 。 但 不 同 的 是 , 卷 
积 神经 网 络 受 到 视觉 系统 的 启发 , 会 考虑 输入 的 空间 结构 。 比 如 , 第 1-1 层 神经 元 和 1 
层 的 局 部 区 域 相连 接 , 该 区 域 (也 被 称 为 局 部 感受 野 ) 执行 卷 积 操作 和 非 线 性 变换 生成 
第 1+1 层 神经 元 。 整 个 网 络 可 以 表示 成 可 微分 的 端 到 端 函数 : f: z y 其 中 z 是 原始 
图 像 , y 是 类 别 分 数 。 卷 积 网 络 通过 损失 函数 ， 比 如 交叉 箭 来 优化 网 络 参 数 。 此 外 , 与 标 
准 神经 网 络 相 比 , CNN 具有 更 少 的 参数 ,从 而 可 以 有 效 地 训练 非常 深 的 架构 (通常 超过 
5 层 , 这 对 于 全 连接 的 网 络 来 说 是 不 可 行 的 )。 通常 , 卷 积 神经 网 络 的 图 层 可 以 分 成 三 种 
类 型 : 卷 积 层 、 池 化 层 和 全 连接 层 。 我 们 通过 堆 釉 这 些 图 层 构 成 完整 的 卷 积 网 络 架构 。 


2.3.1 PMA 
卷 积 层 是 卷 积 神经 网 络 的 核心 图 层 , 用 来 提取 局 部 区 域 的 特征 。 通 常 ， 卷 积 层 有 多 
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个 不 同 的 卷 积 核 ,局 部 区 域 和 这 些 卷 积 核 经 过 卷 积 运算 生成 不 同 的 特征 。 其中, 不 同 的 


卷 积 核 可 以 看 成 不 同 的 特征 提取 器 。 下 面 , 我 们 先 介绍 卷 积 运算 : 
在 连续 情况 下 ,两 个 函数 和 g 的 卷 积 定义 如 下 : 


(«90 - [^ rte - [^ 16-00 
ERBITI S BORA SE. 
(sg 四 = 》 jms -由 = 》 f(n—m)g(m) 


如 果 离 散 函 数 g 的 定义 域 在 (M, M) 上 , WA: 
M 


(f*g)(n)= Y f(n-m)g(m) 


m--M 


(2-17) 


(2-18) 


(2-19) 


其 中 ，g 被 称 为 核 函 数 。 这 些 定义 可 以 扩展 到 多 维 情况 ， 卷 积 神经 网 络 通常 对 图 像 执行 


2D 卷 积 : 


(F * 9)(z,Y) -Y s f(z- n, y - m)g(n, m) 
如 果 是 彩色 图 像 , 那么: 
(F *gmyz)- P s 5 f(T — n, y — m,c)g(n, m, c) 


-M m--Nc--C 


-M m=-N 


2D Gaussian Mask 3x3 from Input matrix 3x3 from Output matrix 
(2 维 的 高 斯 卷 积 ) (抽出 3*3 的 矩阵 ) (转化 后 的 输出 矩阵 ) 


f PC= -XIxkL EX2xkg-EXIXkL-EXAXK2XSXxk0-E XOxk2--XT«k1--XSxk2-- X9xkl 


B28 卷 积 运算 


(2-20) 


(2-21) 
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2.3.2 he 


池 化 层 , 也 可 称 为 子 采 样 层 (subsampling layer), 它 通常 被 用 在 连续 的 卷 积 层 之 间 ， 
类 似 于 特征 选择 的 功能 ,其 主要 作用 是 减少 特征 和 参数 数量 , 减少 网 络 的 计算 量 ， 从 而 
控制 过 拟 合 。 此 外 , 池 化 层 通 常 在 每 个 通道 上 独立 执行 , 我 们 常常 能 见 到 2x2 大 小 (过 
滤器 ) 的 池 化 层 , 每 个 通道 沿 着 宽度 和 高 度 执行 下 采样 , 放弃 75% 的 神经 元 。 
最 大 池 化 ”该 操作 在 每 个 通道 的 n x m 区 域内 计算 所 有 神经 元 的 最 大 值 : 
f(z,y,2) = 


A -ny-m,z) (2-22) 


平均 池 化 ”该 操作 在 每 个 通道 的 nxm 区 域内 计算 所 有 神经 元 的 平均 值 ; 


1 
feyz=— 2 fG-ny-m2) (2-23) 
1lgagn,l<ygm 


图 2.9 池 化 层 


2.3.3 ”常见 的 网 络 结构 


(1) LeNet-5. LeNet-5 是 非常 经 典 的 卷 积 网 络 ，1998 年 由 LeCun 提出 , 用 于 手写 体 的 
字母 图 像 识别 。 这 个 卷 积 网 络 由 多 个 卷 积 层 、 池 化 层 和 全 连接 层 组 成 ,其 结构 如 图 2.10 
所 示 。 池 化 层 和 卷 积 层 类 似 , 但 它 主要 在 图 像 的 非 重 又 位 置 上 使 用 , 它 的 目的 是 提取 重 
要 特征 以 及 减少 图 像 尺寸 。 在 LeNet-5 网 络 中 ,， 池 化 层 采用 平均 池 化 运算 , 但 也 可 以 使 
用 其 他 函数 (比如 最 大 池 化 )。 卷 积 网 络 的 最 后 一 层 采用 全 连接 网 络 , 全 连接 层 的 输出 通 
过 softmax 函数 激活 ， 生 成 每 个 数字 的 概率 。LeNet-5 和 其 他 神经 网 络 一 样 , 使 用 反 向 传 
播 算 法 训练 网 络 参数 。 
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(输入 ) (特征 映射 ) C3:maps 16@10x10 


Cl:feature maps S3:fmaps 16@5x5 输出 
INPUT 6@28x28 S3:fmaps ci 


SEE 6@14x14 


C5:layer p. OUTPUT 
99 FG:layer 95 


Convolutions Subsampling  Convolutions Su 
1 采样 ( 卷 积 ) 


1 
colnection | Gaussian connections 


| Full 
bsampling 。 Fullconnection (高 斯 连接 ) 
全 连接 


采样 


2.40 LeNet 卷 积 结构 


(2) AlexNet。2012 年 Hinton 及 其 学 生 Alex Krizhevsky 提出 了 AlexNet， 该 网 络 主要 
用 于 图 像 分 类 。 他 们 也 参加 了 那 年 的 ImageNet ILSVRC 竞赛 ,达到 15.3% 的 分 类 错误 
率 ， 比 第 二 名 26% 的 错误 率 提高 10 个 百分点 ， 这 是 图 像 分 类 领域 的 重大 突破 。 该 网 络 
和 LeNet-5 非常 相似 ， 但 是 AlexNet 更 深 、 更 宽 一 些 ， 如 图 2.11 a, CHATS 
卷 积 层 。AlexNet 的 实现 过 程 也 有 不 少 细节 : 首先 ， 标 准 的 神经 元 激活 函数 是 双 曲 正切 
f(x) = tanh(z) 或 者 sigmoidf(z) = 1/(1-- exp(—2)). TE AlexNet 里 ， 激 活 函数 被 替换 成 
ReLU f(x) = max(0,z)。 其 次 ，AlexNet 采用 数据 增强 技术 来 增加 标签 数据 集 ， 比 如 图 像 
平移 、 水 平 翻 转 或 者 改变 RGB 通道 的 密度 。 此 外 ， 它 还 引入 dropout 技术 ,这 种 方法 
让 每 个 神经 元 有 一 定 概率 不 会 参与 正 向 和 反 向 传播 。 直观 地 说 , 它 对 网 络 结构 进行 采样 ， 
减少 了 神经 元 的 复合 性 ,对 特定 神经 元 有 更 多 依赖 。 此外， 比较 常见 的 卷 积 网 络 结构 还 


有 VGGNet、ResNet 等 。 
128 (n 


图 2.11 Alex-Net 卷 积 结构 
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2.4 ”循环 网 络 基础 


序列 数据 在 很 多 领域 都 很 常见 ,不仅 应 用 于 自然 语言 处 理 、 语 音 识别 、 计 算 生物 学 
等 专业 领域 , 还 应 用 于 股票 价格 预测 、 天 气 预测 这 些 常见 的 预测 模型 中 。 现 在 流行 的 序 
列 模型 非常 多 。 对 于 最 简单 的 序列 模型 , 只 需要 预测 前 项 或 者 后 项 , 不 需要 隐藏 状态 。 例 
如 自 回归 模型 ,该 模型 在 序列 中 基于 历史 的 许多 项 做 加 权 平 均 ， 并 试图 预测 下 一 项 , Be 
有 隐藏 状态 。 然 而 ， 隐 藏 状态 在 许多 现实 问题 中 也 是 很 有 必要 的 ， 因 为 序列 模型 中 各 个 
节点 的 数据 往往 是 通过 隐 层 进行 传递 的 。 现在 有 许多 序列 模型 的 变 体 , 它们 通常 都 有 隐 
藏 状态 和 动态 性 ， 比 如 线性 动力 学 系统 和 隐 马 尔 可 夫 模 型 等 。 

通常 来 说 , 序列 模型 包含 隐藏 状态 是 非常 自然 的 ,， 隐藏 状态 保存 序列 在 每 个 时 刻 的 
动态 性 , 所 以 它 会 根据 不 同时 刻 的 动态 变化 预测 下 一 个 结果 。 循环 神 经 网 络 就 是 序列 模 
型 的 一 种 变 体 。 在 传统 神经 网 络 中 , 我 们 假设 所 有 的 输入 和 输出 相互 独立 , 但 这 显然 不 
符合 数据 特点 。 假 使 你 想 预 测 句 子 里 的 下 一 个 单词 , 你 会 想 知道 哪些 单词 出 现在 它 前 面 。 
此 外 , RNN 有 循环 性 , 因为 序列 的 每 个 时 刻 都 执行 相同 的 任务 , 每 个 时 刻 的 输出 依赖 于 
当前 时 刻 的 输入 和 上 一 时 刻 的 隐藏 状态 。 


zZ Za Zt Za 


Xena 


RNN 的 紧凑 结构 按时 刻 展 开 的 多 层 RNN 模型 
图 2.12 RNN 


更 具体 地 说 , 给 定 观察 序列 z = {z1,72,… or} 及 其 相应 的 标签 , y = {vy yrs 
我 们 想 要 学 习 一 个 映射 f: m 一 y. 我 们 采用 RNN 构建 序列 模型 ， 和 其 他 动态 系统 类 
似 , RNN 也 有 隐藏 状态 , 不 过 它 在 t 时 刻 的 隐藏 状态 hi 不 仅 依赖 于 当前 的 观测 zi， 也 
依赖 于 上 一 个 隐藏 状态 h_1。 具 体 来 说 , 我们 将 ht 定义 为 : 


he = f (he-1, zt) (2-24) 
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其 中 f 是 非 线性 映射 。 因此 ,hs 包含 了 关于 整个 序列 的 信息 ,可 以 从 式 (2-24) 的 递归 
定义 中 推断 出 来 。 换 句 话说, RNN 可 以 使 用 隐藏 变量 作为 存储 器 来 从 序列 中 捕获 长 期 信 
息 。 具体 来 说 , 可 以 写成 


hy = tanh(Wanht-1 + WrhTt + bn) 
(2-25) 
zt = softmax(Wpzhz + bz) 


=] 
me 


其 中 , 2 是 在 t 时 刻 的 预测 值 , tanh(z) = 


2.4.1 ”时 序 反 向 传播 算法 


时 序 反 向 传播 算法 和 传统 神经 网 络 的 反 向 传播 算法 类 似 , 不 同 之 处 在 于 传统 神经 网 
络 按时 刻 展开 网 络 , 每 个 时 刻 按照 反 向 传播 的 方式 计算 梯度 。 此 外 ,考虑 到 模型 的 泛 化 
能 力 等 原因 , 所 有 时 刻 涉及 的 网 络 参数 是 共享 的 , 因此 参数 的 梯度 需要 对 所 有 展开 层 的 
梯度 求 和 。 下 面具 体 介 绍 时 序 反 向 传播 算法 : 
首先 , 我 们 定义 循环 神经 网 络 的 目标 函数 , 通常 采用 最 大 似 然 或 者 最 小 化 负 对 数 似 然 估 
计 模 型 参数 : 
L(t;z,y) = -ou log zt (2-26) 


假设 ap = Whzhi + be» 那么 可 以 得 到 z; = softmax(at), 对 a, 求 导 可 以 得 到 


aL 
Oa, 


T Was 在 所 有 时 刻 是 共享 的 , 我 们 需要 在 每 个 时 刻 对 它 求 导 再 求 和 : 


= —(ye — zu) (2-27) 


-52 OL Oz (2-28) 


AW Oz, OWnz 


类 似 地 , 可 以 对 0. RF: 
aL OL Oz 
A 


P. (2-29) 
然后 可 以 对 Wan KF (隐藏 状 态 hep 也 依赖 于 hi) : 
OL(t+1) _ OL(t+1) Or Phiri 9h (2-30) 


OWhn Ozt41 Oh Oh, OWhn 
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进一步 , 用 (BPTT) ARTZ t 到 时 刻 0 对 Win KẸ: 
OL(t +1) Y OL(t +1) Oz41 hiyi hk 


OWhn £4 az Ohty1 Oh OWhn (231) 
在 所 有 时 刻 对 Win 的 导数 求 和 , 可 以 得 到 
ðL OL(t +1) Oz041 Ohtşı hk 
OWnn xx 0241 Ohey1 Ohy OWhn (2-32) 
然后 , 在 t+ 1 时刻 对 Won RKE (hs 和 cei 都 对 eg 有 贡献 ), 那么 可 以 得 到 
OL(t+1)  OL(t--1)8hi P OL(t+1) Oh 
OWeh hiyi OWzn Oh, OWeh (2-33) 
_ L+ 1) hisi , L(+ 1) Phiri Oh 
-hyi Wzn Ohty1 Oh, OWzn 
进一步 , 用 (BPTT) ARTA t 到 时 刻 0 对 Win KF: 
OL(t+1) _ A ƏL(t+1) Ohir: Ohy 
BW 22 Ska Oh War = 
最 后 ,对 所 有 时 刻 求 和 , 得 到 
aL(t +1) L(t + 1) hiyi Bhk 
TOW Xn Oh. Oh. OWen (2-35) 
注意 到 ， "at 
t+1 _ hj+1 
Oh, 44 Oh; (939) 
j=k 


如 果 "e 很 小 , 那么 连续 乘法 后 , 可 能 会 消失 , 导致 离 当 前 时 刻 较 远 的 隐藏 状 态 没 办 
SE en 如 果 ro 很 大 , 那么 连续 乘法 后 , 梯度 就 会 失控 ( 爆 
炸 )。 


(1) 梯度 爆炸 。 通常 采用 梯度 截断 来 解决 , 对 梯度 值 进行 缩放 , 使 得 梯度 的 模 不 超过 n. 
假设 9 是 梯度 向 量 , |g| > WA: 


ng 
lgl 


(20 梯度 消失 。 一 种 有 效 的 方法 是 把 RNN 从 hi = f (hei, 24) 改 成 累加 模型 : 


g= (2-37) 


he = he-1 f (ht-1, 2t) (2-38) 
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累加 模型 在 一 定 程度 可 以 缓解 梯度 消失 问题 。 

2009 4E, 使 用 长 短期 记忆 网 络 (LSTM) 构建 的 人 工 神经 网 络 模型 赢得 过 ICDAR 3 
写 识 别 比 赛 冠军 。LSTM 模型 同时 引入 记忆 单元 和 门 机 制 ， 除 了 解决 梯度 消失 问题 ， 还 
在 手写 体 识别 等 任务 上 取得 不 错 的 结果 , 使 得 LSTM 在 解决 时 间 序 列 问题 上 受到 广泛 关 
注 。 


m 


2.4.2 ”长 短 时 记忆 网 络 


长 短期 记忆 网 络 是 循环 神经 网 络 的 一 个 变 体 , 它 扩 展 了 RNNs BUM, 主要 的 贡献 是 引入 
了 记忆 单元 和 门 机 制 在 神经 网 络 内 部 传播 信号 , 同时 有 效 解 决 了 梯度 消失 和 梯度 爆炸 问题 。 

在 图 2.13 中 , 内 存单 元 ct 是 LSTM 网 络 的 核心 单元 , 它 对 历史 的 隐藏 状态 hi- 和 当前 
的 输入 zt 进行 编码 。 此 外 , 输入 门 te 遗忘 门 fe 和 输出 门 o 控制 网 络 内 部 信息 流 的 传递 。 


T, Ws 
7 Whe Input Modulation Gate 


上 一 个 隐 层 输入 


图 2.13 LSTM 在 t 时 刻 的 内 部 结构 
具体 来 说 , 假设 在 t 时 刻 , 每 个 RNN 单元 由 内 存单 元 c、 输 入 门 i. 遗忘 门 f 和 输 
出 门 o, 组 成 。 这 些 门 通过 上 一 时 刻 的 隐藏 状态 huc 和 当前 时 刻 的 输入 zi 计算 得 到 : 
fi = sigmoid(W, pz; + Wy ghi + by) 
i, = sigmoid(Wziz; + Whiht_1 + bi) (2-39) 


o; = sigmoid(W;oz; + Whoht—1 + bo) 
内 存单 元 c, 通过 部 分 遗忘 当前 内 存 并 添加 新 内 存 ge 来 更 新 : 
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ge = tanh(Wzc£t + Wacht-1 + bc) 


(2-40) 
Ct = ficii Og 
一 旦 RNN 的 内 存 被 更 新 后 , t 时 刻 的 隐藏 状态 hy 和 输出 zi 通过 下 式 计算 : 
hi = o © tanh(c:) (2-41) 


zt = softmax(W),zht + bz) 
2.5 ”生成 对 抗 基础 


生成 对 抗 网 络 (Generative Adversarial Networks) 源 自 于 Ian J. Goodfellow 在 NIPS 
2014 上 的 同名 论文 , 在 三 四 年 的 时 间 内 便 成 为 当前 深度 学 习 和 神经 网 络 前 沿 最 热 的 名 词 
之 一 ,每 年 的 NIPS、ICLR 都 有 大 量 讨论 GAN 的 论文 ， 有 人 戏称 “这 个 领域 最 大 的 瓶 
颈 就 是 名 字 不 够 起 了 ”， 因 为 每 周 Arxiv 都 有 名 为 xxxGAN 的 新 论文 出 现下 。 一 方面 在 
各 领域 广泛 地 使 用 GAN 来 完成 不 同 任务 ; 另 一 方面 从 理论 上 和 实践 上 增强 GAN 的 可 
用 性 (比如 稳定 、 可 解释 等 )。 传 统 的 监督 学 习 任 务 通常 需要 为 数据 样本 标注 上 对 应 的 标 
签 , 但 是 数据 的 标注 往往 涉及 很 大 的 成 本 投入 。 因 此 , 如 何 从 海量 无 标注 的 数据 中 获 益 ， 
便 成 为 一 个 学 术 界 和 工业 界 亚 待 突破 的 领域 。 在 这 个 背景 下 , GAN 的 出 现 为 无 监督 学 习 
打开 了 另外 一 肩 门 。 

最 原始 的 GAN 通过 读 取 一 些 原始 图 片 ， 不 依赖 样本 的 额外 标注 信息 ， 就 可 以 生成 
相似 的 图 片 。 如 图 2.14 MRO, 构造 了 一 个 二 人 零 和 博弈 (此 消 彼 长 ) 的 对 抗 框架 ， 生 
成 器 和 判别 器 一 起 优化 , 但 是 有 着 相反 的 优化 方向 , 通过 竞争 来 促进 学 习 。 我 国 古 籍 中 早 
] [0 | 真实 数据 


E~ Pata 2) 


1 I—— B function 
判别 网 络 1 
G(z) H 


sigmoid 


E E 成 数据 
图 2.14 GAN 网 络 
(D https://github.com/hindupuravinash/the-gan-zoo 


Q 摘自 Mark Chang HAH, PPT XÉ https:/ /www.slideshare.net/ckmarkohchang/generative-adver- 


sarial-networks 
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就 有 类 似 在 博弈 中 相互 提升 的 例子 ， 比 如 “ 道 高 一 尺 ， 魔 高 一 丈 "。 打 一 个 常见 的 比方 ， 
生成 器 是 一 个 伪造 名 画 的 厦 品 商人 , 判别 器 是 一 个 鉴定 名 画 的 收购 专家 。 商 人 每 次 都 生 
产 一 批 画 作 给 专家 鉴定 ， 那 种 一 眼 就 被 专家 看 出 来 是 假 货 的 样式 ， 下 次 就 不 生产 了 , 那 
些 不 容易 看 出 来 的 就 继续 照 着 原样 生产 。 专 家 也 不 是 省 油 的 灯 , 晚上 下 班 之 后 也 回去 研 
究 , 拿 一 些 真 画 和 厦 品 商人 的 假 画 对 比 〈 假 如 有 上 帝 告 诉 他 哪些 是 真 的 ， 哪 些 是 夺 品 )， 
继续 提高 鉴别 能 力 。 第 二 天 厦 品 商人 和 鉴定 专家 又 开始 了 一 个 新 的 回合 的 较量 。 

最 后 的 结局 有 两 种 情况 ,第 一 种 是 厦 品 商人 的 雕 虫 小 技 被 鉴定 专家 识破 ,鉴定 专家 
基本 能 全 部 鉴定 真 假 ; 第 二 种 是 厦 品 商人 的 技术 炉火纯青 , 鉴定 专家 无 法 辨别 画作 的 真 
伪 , 基本 等 于 睹 猜 。 因为 两 者 的 学 习 是 零 和 博弈 问题 , 很 难 让 两 者 同时 都 达到 最 佳 水 平 。 
换言之 , 如果 在 某 一 时 刻 鉴定 专家 和 硒 品 商人 都 达到 了 很 好 的 水 平 ， 那 就 出 现 了 “以 子 
之 矛 攻 子 之 盾 ” 的 结果 。 如 果 我 们 调整 策略 让 鉴定 专家 的 学 习 变 得 马虎 一 些 ， 让 质 品 商 
人 能 够 更 充分 地 学 习 好 , 那么 就 可 以 制造 取 之 不 尽 的 硒 品 当成 真正 的 名 作 来 卖 。 回 到 我 
们 模拟 生成 原始 数据 的 场景 中 ,如 果 生 成 器 能 够 蕴含 一 个 原始 数据 的 生成 分 布 ,那么 我 
们 就 可 以 做 很 多 事情 。 在 不 需要 额外 标注 的 前 提 下 , 可 以 生成 一 些 跟 原 始 数据 类 似 的 数 
据 。 


2.5.1 WHER 


最 直接 简单 的 方式 是 定义 两 个 多 层 感 知 机 来 构建 对 抗 博弈 , 也 就 是 生成 器 G 和 判别 
器 D。 为 了 学 习 生 成 器 对 数据 x 的 分 布 po 我 们 在 输入 噪声 变量 pz(z) 上 定义 一 个 先 验 
信息 ,然后 将 对 数据 空间 的 映射 表示 为 G(z;bo), 其 中 G 是 由 多 层 感知 器 表示 的 可 微分 
函数 ， 参 数 为 9,。 我 们 还 定义 了 第 二 个 多 层 感知 器 D(z; ga)， 其 输出 是 一 个 标量 ， 输 出 
D(a) 表示 x 来 自 数据 而 非 p, 的 概率 。 我 们 训练 D 以 最 大 化 将 正确 标签 分 配给 训练 样 
本 和 来 自 G 的 样本 的 概率 。 我 们 同时 以 最 小 化 log(1 — D(G(z))) 为 训练 目标 , 从 而 得 到 
Go MAB, D 和 G 在 博弈 一 个 极 大 极 小 二 人 游戏 , 其 价值 函数 V(G,D) WFA: 


min max V(D,G) = Eexpasa(2) logD()] + Bexp.llog(1- D(G()) (2-42) 


其 中 瑟 是 数学 期 望 。 在 实际 实现 过 程 中 , R E SEE ERTL NATAR EE. E 
优化 D 的 天 个 批量 和 优化 G 的 一 个 步骤 之 间 交 替 训练 。 这样 D 会 一 直接 近 最 优 解 ,只 
要 G 能 够 慢 慢 地 变 好 。 我 们 分 开 来 讨论 生成 器 和 判别 器 。 固 定 G 来 优化 D 时 , 这 时 G 
被 认为 是 一 个 固定 的 模型 ， 其 参数 不 会 被 更 新 ， 所 以 对 于 给 定 z Gz) 是 一 个 常数 , 其 
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价值 函数 为 : 
maxV (D, G) = Ez»... (log D(z)] + Ez~p, [log(1 — D(G(z)))] (2-43) 


当 对 G 喂 入 真实 的 数据 pass 时 ， 该 价值 函数 为 前 半 项 mgx = E, clo D(z)]。 反 
之 , AREA p 的 数据 时 , 即 噪 音 输 入 z REH po 该 价值 函数 退化 为 Bp. [log(1 — 
D(G(z)]. HIT log 函数 是 一 个 单调 递增 的 函数 ， 所 以 这 个 价值 函数 是 希望 判别 器 模型 
预测 真实 数据 的 结果 越 大 , 而 预测 生成 数据 的 结果 越 小 。 

固定 D 来 优化 G 时 , 这 时 D 被 认为 是 一 个 固定 的 模型 ， 其 参数 不 会 被 更 新 。 当 给 
XE G(z) 也 可 以 直接 得 到 D(G(z)), 不 需要 优化 D。 由 于 训练 生成 器 的 时 候 不 需要 用 到 真 
实数 据 , 实际 的 价值 函数 为 : 

min V(D, G) = E. log(1 - D(G(2)))] (2-44) 

在 实践 中 ， 式 子 (2-44) 可 能 没有 提供 足够 的 梯度 让 G 学 好 。 因 为 学 习 初期 ， 当 G 的 
表现 不 好 时 ，D 可 以 高 信 度 地 拒绝 样本 。 在 这 种 情况 下 ，log(1 — D(G(2))) 处 于 饱和 的 
状态 。 既 然 如 此 ， 公 式 (2-43) 提出 训练 G 来 最 大 化 D(G(z)), 而 不 是 训练 G 来 最 小 化 
log(1 — D(G(z))) » 这 两 种 优化 方式 有 着 相同 的 动力 学 不 动 点 , 但 是 可 以 在 前 期 提供 更 强 
的 梯度 。 


2.5.2 ”理论 推导 


GAN 的 总 体 价值 函数 如 式 (2-42)， 当 我 们 实际 训练 时 ,其 x 和 z 只 能 是 一 个 离散 采 
样 序列 。 而 在 进行 理论 分 析 的 时 候 我 们 需要 考虑 所 有 的 x 和 z 即 考虑 一 个 连续 的 分 布 。 
于 是 我 们 直接 将 期 望 写成 积分 的 形式 : 


V(D,G)= bry~paata(z) log D(z)] + Ez. [log(1 — D(G(z)))] 
-f Paata() log( D(z))dz + f p-(2)log(1 — D(G()))dz 


pasar) los(D(z)dz + | p.(G'(a)og(t - DG))G7 Gs — Quas) 


= 
i og(D(xz))dz + [rw log(1 — D(x))dx 
E) 


Pdata (7) log(D(z)) + pg(x) log(1 — D(z))dz 
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X (2-45) 中 ， 第 三 行 的 改写 式 子 基于 z 和 oz 之 间 的 变换 ， 做 了 一 个 换 元 。 因 为 
xz = G(z), 有 z= G-(s), 其 中 G 是 G WARA, KERE G 函数 我 们 在 训练 
时 不 关心 , 在 做 理论 的 推导 和 分 析 时 假设 其 可 逆 。 其 物理 含义 为 将 生成 器 的 输入 输出 倒 
置 ， 反 向 从 z 生成 z。 我 们 容易 得 到 dz = (G-1)'(z)dz 和 po(z) = p.(z)(G) (x) = 
pz(G™ (2)) (G) (z). 

WA D 时 的 目标 是 让 V 更 大 。 我们 对 该 maxV(D,G) RKF, 让 其 导 函 数 等 于 0， 以 
获得 极 值 。 


aj Penn) log(D(z)) + pg(x) log(1 — D(z))) = 0 (2-46) 


得 到 最 后 的 解 为 

puata(Z) — pg(z) TO Paata(z) 
Dis T= Dia)? 907 Lo polz) 
假设 我 们 已 经 训练 好 D， 得 到 最 优 解 D2#， 我 们 接着 来 训练 Ge G 的 目标 是 最 小 价值 
V(D, G), 也 就 是 该 价值 函数 是 其 损失 函数 。 将 最 优 解 Dz, 代入 到 式 (2-45) 最 后 一 行 的 


D}, 有 


(2-47) 


Cost(G) = min V(Dé,G) 


= Esnpaata (x) log(D2) + Ep, (2) log(1 一 Dé) 
Pdata(zx) ) 
Paata(X) + Pg(x) 


Pdata(x) ) 
+ EL log | 1 — ———————— 
topi me ( Paata() + py (2) 


Pdata(x) ) 
mE log | ——————— 
pee <= + pa(z) 


= Eswpaata (2) 108 ( 


Ddata(x) (2-48) 
Paata(Z) + Pg(x) 
Pdata(x) ) 

Paata(X) + Pg(x))/2 


Pdata(z) ) 
TEL. log | 1— 一 —————— 
sete 98 ( (Pausa (2) + p4(2))/2 


= — log 4 KL(paaea(2)|| P623 + Pa) 
+ KL (pas, (o a) 


KL 散 度 是 一 个 非 对 称 描述 两 个 分 布 之 间 差异 的 函数 ， 其 值 大 于 等 于 0， 当 前 仅 当 
两 个 分 布 一 致 时 取 极 小 值 0。 由 此 可 得 优化 生成 器 G 的 损失 的 函数 在 如 下 情况 取得 极 小 


+ Esp, (x) log ( - ) — log4 + 21og2 


= —log4 E, 5, (2) 108 ( 
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Patan) = Bite 2) Pu 
| = Pdata(2) = p(T) (2-49) 


2 
p(z) = Pdata oe paz) 


此 时 优化 生成 器 G 的 损失 的 函数 取得 它 的 理论 最 小 值 — log 4。 
得 到 的 目标 就 是 生成 器 生成 的 数据 分 布 和 真实 数据 的 分 布 完全 相同 时 会 让 损失 函数 
最 小 。 


2.5.3 ”常见 的 生成 对 抗 网 络 
基于 经 典 的 GAN, 还 有 一 些 比较 有 影响 力 的 GAN 变种 , 包括 但 不 限于 : 


(1) CGAN. 传统 的 GAN 是 一 种 无 条 件 CUnconditionaD 的 GAN, 基于 纯 无 标注 数据 
的 GAN 网 络 生成 器 的 输入 是 随机 的 向 量 , 无 法 控制 图 像 的 生成 。 为 了 可 以 控制 GAN 生 
成 特定 目的 图 像 , CGAN (Conditional GAN) 应 运 而 生 , 给 GAN 的 图 像 生成 加 上 额外 的 
条 件 (比如 类 别 标签 ) 作为 上 下 文 , 让 GAN 网 络 的 生成 与 当前 的 条 件 上 下 文 息息相关 ， 
但 是 同时 也 需要 原始 图 像 和 上 下 文 条 件 配对 的 数据 。 后 续 的 CycleGAN. DualGAN 尝试 
降低 CGAN 对 配对 数据 的 依赖 。 CGAN 的 生成 器 和 判别 器 都 会 额外 喂 入 一 个 条 件 变量 
y 作为 输入 , 其 价值 函数 定义 为 


min max V (D, G) = Ez... (2) [log D(rly)] + Ez~p, [log(1 — D(G(z1y)))] (2-50) 


(2) DCGAN. (Deep Convolutional Generative Adversarial Networks) DCGAN 最 主要 
的 变化 是 蔡 换 掉 原 来 的 多 层 感知 机 , 采用 深度 卷 积 网 络 来 作为 生成 器 和 判别 器 的 基础 组 
fF. 并 且 还 有 很 多 优化 技巧 的 改进 让 深度 卷 积 网 络 工作 得 更 好 。 由 于 采用 表达 能 力 更 强 
的 深度 神经 网 络 ，DCGAN 可 以 更 好 地 生成 二 维 甚至 更 高 维 的 图 像 。 后 续 的 工作 还 包括 
StackGAN, 它 让 生成 的 图 片 分 辨 率 越 来 越 高 。 


(30 GGAN. 传统 的 GAN 的 训练 很 不 稳定 , 平衡 生成 器 和 判别 器 的 训练 速度 是 一 个 艺 
术 活 儿 。 而 且 训练 往往 直接 生成 与 原始 图 片 一 模 一 样 的 照片 (mode collapse), 不 能 生成 
多 样 性 样本 。WGAN 是 其 中 最 具 代表 性 的 工作 , 它 提出 了 新 的 距离 度量 损失 函数 等 一 系 
列 trick, 使 得 GAN 训练 的 稳定 性 、 鲁 棒 性 和 最 终 效果 都 得 到 了 很 好 的 加 强 。 


(D 见 知 乎 专栏 : 令 人 拍案 叫绝 的 Wasserstein GAN, https://zhuanlan.zhihu.com/p/25071913 
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(40 SeqGAN. GAN 在 生成 图 像 上 有 了 很 大 的 进展 , 但 是 在 生成 文本 的 时 候 遇 到 了 瓶颈 。 


生成 的 图 像 像素 是 连续 的 , 模型 参数 的 变化 可 以 慢 慢 地 改变 输 H 


8 的 像素 值 , 比如 RGB 通 


道 的 某 位 置 像素 从 151 变 成 了 152. 但 是 生成 文本 时 , 如 果 这 次 生成 了 词 索 引 为 151 的 词 ， 


细微 地 改变 模型 参数 之 后 ， 却 无 法 确定 近邻 连续 的 152 号 索引 


的 词 是 哪 一 个 。SeqGAN 


利用 增强 学 习 来 解决 生成 离散 数据 时 不 可 导 的 问题 , 生成 器 通过 生成 完整 的 句子 再 获得 
判别 器 的 奖励 方式 以 更 新 生成 器 , 这 种 增强 学 习 的 方式 为 GAN 生成 离散 文本 序列 的 训 
练 提供 了 可 能 性 , 但 是 同时 也 使 训练 变 得 不 稳定 ， 当 前 GAN 在 生成 文本 分 类 方面 面临 
的 挑战 依然 很 大 。SeqGAN 打开 了 GAN 在 NLP 上 应 用 的 一 扇 大 门 , 感 兴趣 的 读者 可 以 


去 了 解 Texygen FA, 它 是 一 个 新 的 GAN 文本 生成 评测 平台 ， 
的 文本 生成 模型 0。 


提供 了 最 新 的 基于 GAN 


些 比较 经 典 GAN 的 应 用 包括 : 数据 增强 、 草 图 生成 实 图 、 生 成 高 分 辩 率 的 照片 、 


拍照 美 颜 等 , 读者 有 兴趣 可 以 了 解 Pix2pix 项 目 。@ 


(D 项 目 链接 : https://github.com/geek-ai/Texygen 
@ 项 目 链接 : https://github.com/phillipi/pix2pix 
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在 前 面 几 节 中 , 我 们 看 到 实现 深度 学 习 , 需要 比较 复杂 的 反 向 传播 计算 ， 所 以 对 于 
初学 者 来 说 , 需要 引入 好 的 深度 学 习 框架 ， 以 减少 这 些 重复 编码 工作 , 提高 我 们 的 工作 
效率 。 下 面 我 们 先 介 绍 TensorFlow 平台 。 


3.1 什么 是 TensorFlow 


TensorFlow 是 谷歌 基于 DistBelief 进行 研发 的 第 二 代 人 工 智 能 学 习 系统 , 该 命名 来 源 
于 其 本 身 的 运行 原理 。“Tensor”( 张 量 ) 意 味 着 N 维 数组 “Flow”( 流 ) 意味 着 基于 数据 流 
图 的 计算 “TensorFlow” 为 张 量 从 数据 流 图 的 一 端 流动 到 另 一 端的 计算 过 程 。TensorFlow 
是 将 复杂 的 数据 结构 传输 至 人 工 智能 神经 网 络 中 进行 分 析 和 处 理 的 系统 。 

TensorFlow 最 初 由 Google Brain 小 组 (隶属 于 Google 机 器 智能 研究 机 构 ) 的 研究 员 
和 工程 师 们 开发 出 来 , 用 于 机 器 学 习 和 深度 神经 网 络 方面 的 研究 , 但 这 个 系统 的 通用 性 
使 其 也 可 广泛 用 于 其 他 计算 领域 。2015 年 11 月 , 谷歌 开源 了 其 用 来 制作 AlphaGo 的 深 
度 学 习 系 统 TensorFlow, 但 是 当时 的 TensorFlow 只 能 在 Linux 平台 上 使 用 。2016 年 11 
月 , Google Brain 工程 师 团队 宣布 TensorFlow 0.12 版 本 支持 Windows 原生 操作 系统 。2017 
年 ，TensorFlow 终于 推出 了 1.0 版 本 ， 这 标志 着 应 用 最 广泛 、 使 用 人 数 最 多 的 深度 学 习 
平台 TensorFlow 推出 了 正式 版 。 WS, 在 谷歌 的 语音 搜索 、 广 告 、 电 商 、 图 片 、 街 景 图 、 
翻译 、YouTube 等 众多 产品 之 中 都 可 以 看 到 基于 TensorFlow 的 系统 。 在 经 过 半年 的 尝试 
和 思考 之 后 , 谷歌 的 DeepMind 团队 也 正式 宣布 其 之 后 所 有 的 研究 都 将 使 用 TensorFlow 
作为 实现 深度 学 习 算 法 的 工具 。 

除了 在 谷歌 内 部 大 规模 使 用 之 外 , TensorFlow 也 受到 了 工业 界 和 学 术 界 的 广泛 关注 。 
在 Google I/O 2016 KE, Jeff Dean 提 到 已 经 有 1500 多 个 GitHub 的 代码 库 中 提 到 了 
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TensorFlow， 而 其 中 只 有 5 个 是 谷歌 官方 提供 的 。 如 今 ， 包括 优 步 (Uber)、Snapchat、 

Twitter, 京东 、 小 米 等 国内 外 科技 公司 也 纷纷 加 入 了 使 用 TensorFlow 的 行列 。 正 如 谷歌 

在 说 明 TensorFlow 开源 原因 时 所 提 到 的 一 样 ,TensorFlow 正在 建立 一 个 标准 , 以 使 学 术 

界 可 以 更 方便 地 交流 学 术 研 究 成 果 , 工业 界 可 以 更 快 地 将 机 器 学 习 应 用 于 生产 之 中 。 
TensorFlow 之 所 以 应 用 如 此 广泛 , 主要 是 因为 包括 以 下 特性 下。 


灵活 性 ”TensorFlow 不 是 一 个 严格 的 “神经 网 络 ” 库 。 只 要 你 可 以 将 计算 表示 为 数据 流 
图 , 你 就 可 以 使 用 TensorFlow。 你 来 构建 图 , 描写 驱动 计算 的 内 部 循环 , TensorFlow 提供 
了 有 用 的 工具 来 帮助 你 组 装 “ 子 图 ”( 常 用 于 神经 网 络 )， 当 然 用 户 也 可 以 在 TensorFlow 
基础 上 写 自 己 的 “上 层 库 ”。 


可 移植 性 TensorFlow 在 CPU 和 GPU 上 运行 ， 比 如 可 以 运行 在 台式 机 、 服 务 器 、 手 
机 等 移动 设备 上 。 想 要 在 没有 特殊 硬件 的 前 提 下 应 用 人 工 智能 , 使 用 TensorFlow 可 以 办 
到 这 点 。 另 外 如 果 你 想 把 自己 的 训练 模型 放 在 多 个 CPU 上 规模 化 运算 ， 又 不 想 修改 代 
T3, TensorFlow 也 可 以 帮 你 实现 。 


将 科研 和 产品 联系 在 一 起 过 去 如 果 要 将 科研 中 的 机 器 学 习 算法 应 用 到 产品 当中 ,需要 
大 量 的 代码 重 写 工作 。 而 在 Google, 科学 家 用 TensorFlow 尝试 新 的 算法 , 产品 团队 则 用 
TensorFlow 来 训练 和 使 用 计算 模型 , 并 直接 提供 给 在 线 用 户 。 使 用 TensorFlow 可 以 让 应 
型 研究 者 将 想法 迅速 运用 到 产品 中 ， 也 可 以 让 学 术 性 研究 者 更 直接 地 彼此 分 享 代码 ， 
从 而 提高 科研 产 出 率 。 


自动 求 微分 基于 梯度 的 机 器 学 习 算法 会 受益 于 TensorFlow 自动 求 微分 的 能 力 。 作 为 
TensorFlow 用 户 , 你 只 需要 定义 预测 模型 的 结构 , 将 这 个 结构 和 目标 函数 (objective func- 
tion) 结合 在 一 起 , 并 添加 数据 ，TensorFlow 将 自动 为 你 计算 相关 的 微分 。 计 算 某 个 变量 
相对 于 其 他 变量 的 导数 仅仅 是 通过 扩展 你 的 图 来 完成 的 , 所 以 你 能 一 直 清楚 地 看 到 究竟 
在 发 生 什么 。 

多 语言 支持 ”TensorFlow 有 一 个 合理 的 C++ 使 用 界面 , 也 有 一 个 易 用 的 Python 使 用 界 
面 , 可 以 构建 和 执行 你 的 graphs。 你 可 以 直接 写 Python/C++ 程序 , 也 可 以 用 交互 式 的 
iPython 界面 来 用 TensorFlow 尝试 一 些 想法 , 它 可 以 帮 你 将 笔记 、 代 码 、 可 视 化 等 有 条 
理 地 归 置 好 。 当然 这 仅仅 是 个 起 点 一 一 我 们 希望 能 鼓励 你 创造 自己 最 喜欢 的 语言 界面 ， 
比如 Go. Java. Lua. JavaScript, 或 者 是 Ro 

(D 特性 介绍 来 自 于 TensorFlow 官网 (heeps:/ /www.tensorflow.org) 


m 
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性 能 最 优化 ”比如 说 你 有 一 台 32 个 CPU WELL 4 个 GPU 显卡 的 工作 站 , 怎样 将 它 的 计 
算 潜 能 完全 发 挥 出 来 ? TensorFlow 给 予 了 线程 、 队 列 、 异 步 操作 等 以 最 佳 的 支持 ， 让 你 
可 以 将 你 手边 硬件 的 计算 潜能 全 部 发 挥 出 来 。 你 可 以 自由 地 将 TensorFlow 图 中 的 计算 元 
素 分 配 到 不 同 设备 上 ，TensorFlow 可 以 帮 你 管理 好 这 些 不 同 副本 。 


3.2 TensorFlow 安装 指南 


目前 TensorFlow 已 支持 在 Windows/Linux/Mac OS X 三 种 系统 上 运行 。 


3.2.41 Windows 环境 安装 


安装 Anaconda Anaconda 可 以 帮助 管理 不 同 版 本 的 Python 和 包 。 大 家 常用 的 基本 上 
都 是 Python2.7, 但 Windows 版 本 的 TensorFlow 需要 Python3.5 的 支持 。 使 用 Anaconda 
后 , 可 以 不 用 修改 目前 系统 所 用 的 环境 变量 , 单独 安装 Python3.5 的 环境 即 可 。 

Anaconda 下 载 地 址 : https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ (这 是 清华 
大 学 的 镜像 ， 下 载 速度 较 官网 快 很 多 , 建议 下 载 4.2 版 本 ) 


创建 Anaconda 环境 
1. 启动 Anaconda Prompt。 
2. 进入 命令 行 模式 后 , 依次 输入 : 


He oda X OH 
conda create -n tensorflow Python-3.5 
## 创 建 环境 


activate tensorflow 


安装 CPU 版 本 的 TensorFlow 在 Anaconda 中 执行 


pip install --ignore-installed -upgrade  https://storage.googleapis .com/ 
tensorflow/windows/cpu/tensorflow-0.12 


.0-cp35-cp35m-win_amd64. whl 


安装 完成 后 ,其实 已 经 可 以 使 用 TensorFlow J. HEA Python, SA tensorflow 4, 一 般 
若 能 正常 导入 , 就 表示 安装 成 功 了 。 
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安装 GPU 版 本 的 TensorFlow  TensorFlow 的 GPU 特性 只 支持 NVIDIA Compute Ca- 
pability >= 3.5 的 显卡 。 支持 的 显卡 包括 但 不 限于 :NVidia Titan, NVidia Titan X, NVidia 
K20. NVidia K40。 具 体 可 至 官网 查询 。 

1. 安装 官网 的 显卡 驱动 。 

2. 安装 CUDA 8.0:https://developer.nvidia.com/cuda-downloads。 

3. 安装 cuDNN: https://developer.nvidia.com/rdp/cudnn-download (注意 这 里 要 下 载 5.1 

版 本 的 , 更 高 版 本 存在 兼容 问题 ) 。 
4. 在 Anaconda 中 执行 。 


pip install --upgrade https://storage.googleapis .com/tensorflow/windows/ 
gpu/tensorflow 
-gpu-0.12.1-cp35-cp35m-win amd64.whl 


5. 第 一 次 安装 可 能 会 报 No module named pywrap-tensorflow and/or DLL load failed 这 
个 错误 , 这 是 因为 缺少 msvep140.dll, 需要 下 载 Visual C++ 2015 redistributable (x64 
version )。 并 安装 

. 验证 是 否 成 功 , 如 图 3.1 所 示 。 


a 


e-uin device 


connon. runt ine » eu 9061 DMA: A 
ce: \tf_jenkin e ease-viny 


connon_runt ine rar: 9161 9 
tf_jenkins hone e € e\gpu\o 
common_runt ine \ 1_device E ating Tense 
id: 9600:61:80.> 


图 3.1 TensorFlow 安装 截图 


3.2.2 Linux 环境 安装 


安装 CPU 版 本 的 TensorFlow Linux 环境 安装 相对 于 windows 来 说 简单 很 多 , 只 需 先 
安装 Python2.7, 再 执行 以 下 命令 : 
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## 仅 使 用 CPU 的 版 本 
pip install 
https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow -0.5.0 


-cp27 -none-linux_x86_64. whl 


安装 GPU 版 本 的 TensorFlow 为 了 编译 并 运行 能 够 使 用 GPU 的 TensorFlow, 需要 先 
安装 NVIDIA 提供 的 CUDA Toolkit 7.0 和 cuDNN 6.5 V2。 

TensorFlow 的 GPU 特性 只 支持 NVidia Compute Capability >= 3.5 的 显卡 。 支 持 的 
显卡 包括 但 不 限于 :NVidia Titan, NVidia Titan X, NVidia K20、NVidia K40. 具体 可 至 官 
网 查询 。 

1. 下 载 并 安装 CUDA Toolkit 7.0, 将 工具 安装 到 诸如 /usr/local/cuda 之 类 的 路 径 。 
2. 下 载 并 安装 cuDNN Toolkit 6.5, 解压 并 拷贝 cuDNN 文件 到 CUDA Toolkit 7.0 安装 

路 径 下 , 假设 CUDA Toolkit 7.0 安装 在 /usr/local/cuda, 执行 以 下 命令 : 


tar xvzf cudnn-6.5-linux-x64-v2.tgz 
sudo cp cudnn-6.5-linux-x64-v2/cudnn.h /usr/local/cuda/include 
sudo cp cudnn-6.5-linux-x64-v2/libcudnn* /usr/local/cuda/lib64 


3. 配置 TensorFlow 的 CUDA 选项 。 


$ ./configure 
Do you wish to bulid TensorFlow with GPU support? [y/n] y 
GPU support will be enabled for TensorFlow 


Please specify the location where CUDA 7.0 toolkit is installed. Refer to 
README.md for more details. [default is: /usr/local/cuda]: /usr/local/ 


cuda 


Please specify the location where CUDNN 6.5 V2 library is installed. 
Refer to 
README.md for more details. [default is: /usr/local/cuda]: /usr/local/ 


cuda 


Setting up Cuda include 
Setting up Cuda lib64 
Setting up Cuda bin 


Setting up Cuda nvvm 
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Configuration finished 


这 些 配 置 将 建立 到 系统 CUDA 库 的 符号 链接 。 每 当 CUDA 库 的 路 径 发 生变 更 时 , 必 
须 重 新 执行 上 述 步骤 , 否则 无 法 调用 baze 编译 命令 。 
4. 编译 目标 程序 , 开启 GPU 支持 ， 从 源码 树 的 根 路 径 执行 : 


$ bazel build -c opt --config=cuda tensorflow/cc:tutorials example trainer 


$ bazel-bin/tensorflow/cc/tutorials example trainer --use_gpu 


注意 , GPU 支持 需 通 过 编译 选项 “-config=cuda” 开 启 。 


3.3 ”TensorFlow 基础 


为 了 方便 读者 了 解 TensorFlow 的 运行 原理 , 本 节 介 绍 TensorFlow 中 的 基础 概念 , 并 
且 用 简单 的 例子 来 进行 说 明 。TensorFlow 中 的 计算 通过 两 步 来 执行 , 第 一 步 定 义 一 个 计 
算 图 ; 第 二 步 通 过 会 话 (Session) 来 执行 图 中 的 操作 。 


3.3.1 ”数据 流 图 


TensorFlow 中 用 于 构建 计算 的 方式 是 数据 流 图 (Data Flow Graphs)。 数 据 流 图 由 节 
点 和 边 组 成 , 其中, 节点 代表 数值 操作 〈 比 如 加 法 、 乘 法 、 卷 积 和 池 化 等 ),， 边 代表 流动 
的 张 量 。 一 次 计算 由 输入 节点 开始 , 产生 的 张 量 在 图 中 流动 ,经 过 不 同 操作 节点 时 进行 
各 种 数值 计算 , 最 后 产生 张 量 结果 输出 。 


KÆ TensorFlow 中 的 数据 都 使 用 张 量 (Tensor) 来 表示 。 张 量 是 一 个 N 维 的 数组 。 举例 
来 说 , 零 维 张 量 就 是 数字 (scalar, 标量 ); 一 维 张 量 就 是 向 量 (vector); 二 维 张 量 就 是 矩 
阵 。 


操作 ”TensorFlow 中 的 计算 操作 通过 操作 (Operation) 来 进行 。 操 作 是 数据 流 图 中 的 一 个 
节点 , 对 张 量 进行 操作 。 一 个 操作 节点 的 输入 是 零 个 或 者 多 个 张 量 对 象 , 输出 是 零 个 或 者 
多 个 张 量 。 操 作对 象 通过 调用 Python 操作 初始 化 (比如 tf.matmul 或 者 tf . Graph. create 
-op) 来 得 到 。 

在 下 面 的 例子 中 ， 我 们 来 构建 一 个 简单 的 计算 图 。 每 个 节点 将 零 个 或 多 个 张 量 作 
为 输入 ， 并 产生 张 量 作为 输出 。 一 种 类 型 的 节点 是 一 个 常量 。 像 所 有 的 TensorFlow 常 
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量 一 样 ， 它 不 需要 输入 ， 而 是 输出 一 个 内 部 存储 的 值 。 我 们 可 以 创建 两 个 浮 点 Tensors 
nodel, node2, 如 下 所 示 : 


nodei = tf.constant (3.0, dtype=tf.float32) 
node2 - tf.constant (4.0) 


node3 tf.add(nodei, node2) 


其 中 , tf.add 是 一 个 操作 , 输入 是 nodel 和 node2, 输出 是 node3。 


3.3.2 ik 


Bik (Session) 是 TensorFlow 中 用 于 控制 数据 流 图 执行 的 对 象 。 运行 session. run) 
可 以 执行 你 想 要 运算 的 部 分 获得 运算 结果 。 为 了 进行 计算 , 数据 流 图 需要 在 会 话 中 启动 ， 
而 会 话 会 将 图 的 操作 分 发 到 CPU 或 者 GPU 等 设备 执行 后 返回 Tensor 结果 。 

下 面 的 代码 创建 了 一 个 Session 对 象 ， 然 后 调用 它 的 run 方法 来 运行 足够 的 计算 图 
来 评估 nodel 和 node2. 


sess = tf.Session() 
print(sess.run([nodei, node2, node3])) 


[3.0, 4.0, 7.0] 


3.3.3 AMTARE 


TensorFlow 提供 了 一 个 名 为 TensorBoard 的 实用 程序 ， 可 以 显示 计算 图 的 图 像 。 
图 3.2 显示 了 TensorBoard 如 何 将 图 形 可 视 化 : 
ed Ada 


图 3.2 TensorBoard 计算 


3.3.4 ”变量 


TensorFlow 中 通过 变量 (Variable) 来 维护 图 执行 过 程 中 的 状态 信息 。 变 量 在 计算 过 
程 中 是 可 变 的 , 并 且 在 训练 过 程 中 会 自动 更 新 或 优化 , 常用 于 模型 参数 。 变量 必 须 先 被 初 
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始 化 (initialize), 然后 可 以 在 训练 时 和 训练 后 保存 (save) 到 磁盘 中 或 者 再 恢复 (restore) 
保存 的 变量 值 来 训练 和 测试 模型 。 


3.3.5 ” 占 位 符 
占 位 符 (Placeholder) 用 来 给 计算 图 提供 输入 , 常用 于 传递 训练 样本 。 


3.3.6 ”优化 器 


TensorFlow 提供 了 优化 器 (Optimizer)， 可 以 按照 一 定 的 规则 优化 每 个 变量 以 最 大 
限度 地 减少 损失 函数 。 最 简单 的 优化 器 是 梯度 下 降 ,， 它 根据 相对 于 该 变量 的 损失 导数 的 
大 小 来 修改 每 个 变量 。TensorFlow 优化 器 提供 机 器 学 习 的 绝 大 多 数 常见 的 优化 器 ,使 得 
用 户 省 去 了 手动 更 新 变量 的 烦琐 程序 。 

比如 下 面 的 代码 定义 了 一 个 梯度 下 降 优化 器 用 于 最 小 化 Loss. 


optimizer = tf.train.GradientDescentÜptimizer (0.01) 


train = optimizer.minimize(loss) 


3.3.7 ”一 个 简单 的 例子 


学 习 了 前 面 TensorFlow 中 的 基础 概念 , 我 们 通过 一 个 简单 的 例子 来 说 明 TensorFlow 
完整 的 训练 过 程 。 


from tensorflow.examples.tutorials.mnist import input data 


import tensorflow as tf 


def main(_): 
# 输 入 数据 


mnist = input_data.read_data_sets(FLAGS.data_dir, one hot-True) 


se ERA 

tf.placeholder (tf.float32, [None, 784]) 
tf.Variable(tf.zeros([784, 10])) 
tf.Variable(tf.zeros([10])) 
tf.matmul(x, W) * b 


x 


H 


W 
b 
y 


# 定义 损失 函数 cross_entropy 和 优化 器 


其 中 , mist 是 TensorFlow 提供 的 示例 用 的 MNIST 数据 集 , 我 们 在 这 个 例子 中 使 用 
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y- = tf.placeholder (tf.float32, [None, 10]) 
cross_entropy = tf.reduce_mean( 
tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)) 


train step = tf.train.GradientDescentÜptimizer (0.5).minimize(cross entropy) 


# 定 义 会 话 
sess = tf.InteractiveSession() 
tf.global variables initializer ().run() 
# 训 练 
for _ in range(1000): 
batch. xs, batch ys = mnist.train.next batch(100) 


sess.run(train step, feed dict-(x: batch xs, y_: batch ys)) 


# 测 试 训练 得 到 的 模型 

correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y., 1)) 
accuracy = tf.reduce.mean(tf.cast(correct prediction, tf.float32)) 
print(sess.run(accuracy, feed dict-í(x: mnist.test.images, 


y-: mnist.test.labels))) 


的 是 Softmax 模型 。 首 先 , 定义 了 模型 y = Wa b 需要 的 参数 W Ald, 以 及 输入 x. 接着 ， 
定义 了 模型 的 损失 函数 和 优化 器 。 然 后 在 会 话 sess 中 反复 对 于 不 同 的 输入 ， 使 用 优化 
器 对 模型 进行 优化 。 最 后 ， 使 用 测试 集 对 模型 结果 进行 测试 ,得 到 测试 精度 accuracy. 


3.4 ”其 他 深度 学 习 平 台 


Keras Keras 的 句法 非常 简单 明晰 , 它 的 文档 也 非常 好 , 而 且 支 持 Python. Keras 的 使 


也 非常 简单 ,可 以 很 直观 地 了 解 它 的 指令 、 函 数 和 每 个 模块 之 间 的 链接 方式 。Keras 是 


一 个 非常 高 层 的 库 , 可 以 工作 在 Theano 和 TensorFlow 之 上 。 另 外 , Keras 强调 极 简 主义 


你 只 需 几 行 代码 就 能 构建 一 个 神经 网 络 。 参 考 链接 : https://keras.io/。 


Caffe Caffe 不 只 是 最 老牌 的 框架 之 一 ， 而 是 老牌 中 的 老牌 。Caffe 有 非常 好 的 特性 , 但 


也 


有 一 些小 缺点 。 起 初 的 时 候 它 并 不 是 一 个 通用 框架 ， 而 是 仅仅 关注 计算 机 视觉 ,但 它 


有 具有 非常 好 的 通用 性 。Caffe 的 缺点 是 不 够 灵活 。 如 果 你 想 给 它 来 一 点 新 改变 , 那 你 就 需 
要 使 用 C++ 和 CUDA 编程 , 不 过 你 也 可 以 使 用 Python 或 MATLAB 接口 进行 一 些小 改 
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动 。Caffe 的 文档 非常 贫乏 , 需要 花 大 量 时 间 检 查 代 码 才 能 理解 它 。Caffe 的 最 大 缺点 之 
一 是 它 的 安装 , 它 需要 解决 大 量 的 包 依 赖 问 题 。 但 在 计算 机 视觉 领域 里 ，Caffe 是 无 可 争 
议 的 领导 者 , 它 非常 稳健 , 非常 快速 。 建议 用 Keras 进行 实验 和 测试 , 然后 迁移 到 Caffe 
中 用 于 生产 环境 。 参考 链 接 : http://caffe.berkeleyvision.org/。 


Theano Theano 是 最 老牌 和 最 稳定 的 库 之 一 。 深度 学 习 库 的 开端 不 是 Caffe 就 是 
Theano。 和 TensorFlow 类 似 ，Theano 是 一 个 比较 底层 的 库 。 因 此 它 并 不 适合 深度 学 
习 ， 而 更 适合 数值 计算 优化 。 它 支持 自动 的 函数 梯度 计算 ， 带 有 Python 接口 并 集成 
了 Numpy， 这 使 得 它 从 一 开始 就 成 为 了 通用 深度 学 习 领 域 最 常 使 用 的 库 之 一 。 但 由 于 
Theano 不 支持 多 GPU 和 水 平 扩展 , 在 TensorFlow 的 热潮 下 ，Theano 已 经 逐渐 被 遗忘 了 。 
参考 链接 : http://deeplearning.net/software/theano/。 


MXNet MXNet 是 作者 推荐 的 另 一 个 优秀 的 深度 学 习 框 架 , 支持 大 多 数 编程 语言 ， 包 
括 Python, R, C++, Julia 等 。 亚马逊 把 MXNet 列 为 其 深度 学 习 的 参考 库 并 宣称 其 具有 
巨大 的 横向 扩展 能 力 。 参 考 链 接 : https://github.com/dmlc/mxnet. 


Torch Torch 是 一 个 很 著名 的 框架 ， 由 Facebook 进行 维护 ，Torch 的 编程 语言 是 Lua。 
在 目前 深度 学 习 编 程 语言 绝 大 部 分 以 Python 实现 为 主 的 大 趋势 下 , 一 个 以 Lua 为 编程 
语言 的 框架 的 最 大 劣势 莫 过 于 此 。 如 果 你 想 使 用 Torch 这 个 工具 , 毫 无 疑问 你 需要 先 学 
2] Lua 语言 。 参 考 链接 : http:/ /torch.ch/。 


PyTorch 由 于 Lua 语言 在 数据 学 科 和 人 工 智 能 学 科 并 不 是 太 受 欢迎 , 支持 Python 的 
PyTorch 应 运 而 生 。PyTorch 使 用 动态 图 模型 ， 更 加 方便 地 定制 网 络 结构 ， 特 别 受到 科 
研 人 员 的 欢迎 。 最 近 Facebook 宣布 ，Caffe2 的 代码 将 全 部 并 入 PyTorch， 这 也 给 未 来 
的 PyTorch 赋予 了 更 大 的 潜力 。 同 时 ，PyTorch 中 的 Tensor 和 Numpy 中 的 数组 可 以 很 
方便 地 进行 转换 , 便于 用 户 的 使 用 。 在 PyTorch 中 使 用 GPU 进行 计算 很 简单 ,通过 调 
.duda O 方法 , 很 容易 实现 GPU 支持 。 


n 


DL4J DL4J 的 文档 写 得 非常 好 , Hil ICA ABIRE ABR, 也 有 代码 案例 。 DLAI 
兼容 JVM, 适用 于 Java. Clojure 和 Scala。DL4J 背后 的 公司 Skymind 的 Twitter 账号 非 
常 活跃 , 不 断 公 开 最 新 的 科学 论文 、 案 例 和 教程 , 推荐 大 家 关注 。 参 考 链 接 : https://deep- 
learning4j.org/。 
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Cognitive Toolkit Cognitive Toolkit 由 微软 研发 支持 ， 从 公开 的 基准 测试 上 的 表现 来 
看 , 这 个 工具 似乎 很 强劲 , 支持 纵向 和 横向 的 推移 。 到 目前 为 止 , Cognitive Toolkit 似乎 
不 是 很 流行 。Cognitive Toolkit 在 Python 上 的 语法 和 Keras 非常 类 似 (Cognitive Toolkit 
也 支持 C++)。 参 考 链接 : https://github.com/Microsoft/CNTK. 


Lasagne Lasagne 是 一 个 工作 在 Theano 之 上 的 库 。 它 的 使 命 是 简化 一 点 深度 学 习 算 
法 之 下 的 复杂 计算 ， 同 时 也 提供 了 一 个 更 加 友好 的 接口 〈 也 是 Python 的 )。 这 是 一 个 
老牌 的 库 ， 并 且 很 长 时 间 以 来 它 都 是 一 个 扩展 能 力 很 强 的 工具 ;但 是 它 的 发 展 速度 赶 
不 上 Keras。 它 们 的 适用 领域 都 差不多 ， 但 Keras 有 更 好 的 、 更 完整 的 文档 。 参 考 链 
接 : http://lasagne.read-thedocs.io/en/latest /index.html. 


DSSTNE DSSTNE 的 发 音 同 Destiny， 这 个 框架 不 具有 普 适 性 ,不 是 为 一 般 常见 任务 
所 设计 的 。 DSSTNE 框架 只 做 一 件 事 一 一 推荐 系统 , 但 它 把 这 件 事 做 到 了 极致 。“ 既 不 
是 为 研究 而 设计 , 也 不 是 为 测试 idea 而 设计 ”( 来 自 其 官方 网 站 的 宣传 语 ), DSSTNE HE 
架 是 为 量 产 而 设计 的 。DSSTNE 框架 通过 GPU 运行 , 不 同 于 本 书 中 分 析 的 其 他 框架 或 
者 库 , 这 个 框架 不 支持 使 用 者 随意 在 CPU 和 GPU 之 间 切 换 。 DSSTNE 还 不 是 一 个 足够 
成 熟 的 项 目 , 而且 它 封装 得 太 严密 了 (black box)。 如 果 我 们 想 深入 了 解 这 个 框架 的 运行 
机 制 , 必须 且 只 能 去 看 它 的 源码 , 并 且 需 要 完成 很 多 必须 完成 的 设置 (TODO ) 才 可 以 看 
到 。 同时 , 关于 这 个 框架 的 在 线 教程 不 多 , 而 能 让 开发 者 进行 操作 尝试 的 指导 就 更 少 了 。 
参考 链接 : https://github.com/amznlabs/amazon-dsstne。 

值得 提 及 的 是 ， 由 微软 和 Facebook 发 起 的 开源 人 工 智能 项 目 ONNX (Open Neu- 
ral Network Exchange), 也 受到 了 亚马逊 AWS 的 支持 。 该 项 目 致力 于 可 靠 地 导出 和 导入 
Torch, Caffe, TensorFlow, Theano, Chainer, Caffe2, PyTorch 和 MXNet 等 工具 和 引擎 。 
所 以 开发 者 可 以 将 主要 精力 放 到 选用 一 款 得 心 应 手 的 框架 来 实现 自己 所 需 的 功能 , 不 必 
过 多 在 意 未 来 不 同 开源 框架 的 发 展 和 消亡 。 


i4 xm 
推荐 系统 的 基础 算法 


推荐 系统 的 主要 功能 是 以 个 性 化 的 方式 帮助 用 户 从 极 大 的 搜索 空间 中 快速 找到 感 兴 
趣 的 对 象 。 在 推荐 系统 的 众多 算法 中 ， 基 于 内 容 的 推荐 与 基于 领域 的 推荐 在 实践 中 得 
到 了 最 广泛 的 应 用 。 其 中 基于 领域 的 算法 又 分 为 两 大 类 , 一 类 是 基于 用 户 的 协同 过 滤 算 
法 , 这 种 算法 从 用 户 的 兴趣 相似 出 发 , 给 用 户 推荐 与 其 兴趣 相似 的 其 他 用 户 喜欢 的 物品 ; 
另 一 类 是 基于 物品 的 协同 过 滤 算 法 , 这 种 算法 更 容易 理解 , 就 是 直接 给 用 户 推 荐 和 他 之 
前 喜欢 的 物品 相似 的 物品 。 本章 就 重点 为 读者 介绍 基于 内 容 的 推荐 与 基于 领域 的 推荐 算 
ik. 同时 , 采用 以 上 算法 , 可 能 会 有 冷 启动 等 问题 存在 , 结合 深度 学 习 的 方法 , 本 章 也 给 
出 了 几 个 采用 深度 学 习 算 法 解决 冷 启动 问题 的 实例 。 


41 基于 内 容 的 推荐 算法 


基于 内 容 的 推荐 系统 本 质 是 对 内 容 进行 分 析 , 建立 特征 ; 基于 用 户 对 何 种 特征 的 内 
容 感 兴趣 以 及 分 析 一 个 内 容 具 备 什么 特征 来 进行 推荐 。 本 节 的 第 一 部 分 介绍 了 基于 内 容 
的 推荐 系统 的 基本 概念 与 流程 ， 及 其 主要 优势 和 缺点 。 本 节 的 第 二 部 分 则 介绍 了 如 何 从 
非 结构 化 信息 中 提取 物品 的 特征 ， 从 而 帮助 我 们 完善 基于 内 容 的 推荐 。 


4.1.1 ”基于 内 容 的 推荐 算法 基本 流程 


一 般 来 说 , 物品 都 有 一 些 关 于 内 容 的 分 类 , 例如 书籍 有 科技 、 人 文 、 工 具 等 分 类 , 电 
影 有 战争 、 爱 情 、 喜 剧 等 分 类 , 商品 有 食物 、 衣物 、 家 电 等 分 类 。 而 基于 内 容 的 推荐 , 就 
是 根据 这 些 物 品 的 内 容 属 性 和 用 户 历 史 评分 或 操作 记录 , 计算 出 用 户 对 不 同 内 容 属性 的 
爱好 程度 ， 再 根据 这 些 爱 好 推荐 其 他 相同 属性 的 物品 。 举 个 简单 的 例子 〈 见 表 41), 假 
设 每 一 部 电影 , 都 由 爱情 、 科 幻 属性 组 成 : 
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表 4.1 用 户 A 和 B 的 评分 矩阵 


电影 名 称 爱情 AA 用 户 4 MP B 
银河 护卫 队 / 1 54 ? 
变形 金刚 / 1 4 分 24 
星际 迷航 1 54 34 
独立 日 / 1 ? 24 
七 月 与 安生 1 / ? 34 
三 生 三 世 1 / 3 分 
美人 鱼 1 / 24 34 
北京 遇 上 西雅图 1 / 2 分 5 分 
美人 鱼 1 / 2 分 3 分 
北京 遇 上 西雅图 1 / 24 545 


HP 4 对 《银河 护卫 队 》《 变 形 金 刚 》 《星际 迷航 》 三 部 科幻 电影 都 有 评分 , 平均 分 
为 47 分 ( (54445) /3=4.7); 对 《三 生 三 世 》《 美 人 鱼 》《 北 京 遇 上 西雅图 》 三 部 爱情 电 
影评 分 平均 分 为 2.3 分 C (3+2+2) /3=2.3)。 那 么 很 明显 , 用 户 A 对 科幻 电影 有 明显 的 
偏好 。 当 推荐 系统 预测 用 户 A 在 《独立 日 》 上 的 评分 时 , 可 以 用 A 在 所 有 科幻 电影 上 的 
平均 分 4.7 分 替换 ; 类 似 地 , 可 以 预测 用 户 A 在 《七 月 与 安生 》 的 评分 为 2.3 分 , 因此 推 
荐 系统 优先 将 《独立 日 》 推 荐 给 用 户 4。 对 于 用 户 B, 在 爱情 电影 上 平均 分 更 高 , 故而 推 
荐 系统 会 将 《三 生 三 世 》 推 荐 给 用 户 B。 实际 上 , 在 很 多 视频 APP 中 , 都 有 类 似 的 基于 
内 容 的 推荐 方法 , 见 图 4.1。 

我 们 可 以 将 内 容 推荐 的 基本 方法 归纳 为 以 下 3 个 步骤 。 

COD 特征 (内容 ) 提取 : 提取 每 个 待 推荐 物品 的 特征 (内容 属性 ), 例如 上 文 提 到 的 电 
影 \ 书籍 、 商 品 的 分 类 标签 等 。 在 下 一 节 中 会 具体 介绍 几 种 物品 内 容 特 征 的 提取 方法 。 

(2) 用 户 偏好 计算 : 利用 一 个 用 户 过 去 的 显 式 评分 或 者 隐 式 操作 记录 , 计算 用 户 不 同 
特征 (内容 属 性 ) 上 的 偏好 分 数 。 计 算 偏好 分 数 的 方法 , 可 以 直接 使 用 统计 特征 , 即 计算 
户 在 不 同 标签 下 的 分 数 , 以 上 文 为 例 , 用 户 4 在 科幻 下 的 分 数 为 (5+4+5) /3=4.7。 在 
某 些 推荐 场景 下 , 对 时 间 比 较 敏感 , 用 户 的 兴趣 迁移 比较 快 , 在 计算 偏好 得 分 的 时 候 会 增 
加 时 间 因 子 , 例如 用 户 A 在 科幻 下 的 分 数 为 (xati ftimel 4 o dif ftime? 1 5x odif ftime3) 73, 
其 中 a 取 小 于 1 的 数值 , 值 越 小 时 间 衰 减 越 快 , dif ftime 是 用 户 对 该 物品 评分 时 到 现在 
的 时 间 间 隔 。 
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VIP 会 员 VIP 福利 社 电视 剧 电影 动漫 综艺 
喜剧 总 动员 2 您 享 版 青春 旅社 特约 版 第 5 其 


的 影院 > 


青云 志 纪录 片 
如 果 你 喜欢 有 关 的 片子 ， 来 看 看 此 片 吧 ， 希 望 你 会 
喜欢 


图 4.1 腾讯 视频 APP 推荐 页 面 


(3) 内 容 召 回 : 将 待 推荐 物品 的 特征 与 用 户 偏好 得 分 匹配 , 取出 用 户 最 有 可 能 喜欢 
的 物品 池 。 用 上 面 的 例子 来 说 , 对 于 用 户 A 最 有 可 能 喜欢 的 物品 池 是 科幻 电影 的 物品 
池 ; 对 于 用 户 B. 最 有 可 能 喜欢 的 物品 池 是 爱情 电影 的 物品 池 。 

(4) 物品 排序 : 按 用 户 偏好 召回 物品 池 , 可 能 一 次 性 挑选 出 很 多 内 容 , 这 时 候 我 们 可 
以 进一步 根据 这 些 电影 的 平均 分 进行 排序 。 例 如 对 于 用 户 A. 科幻 电影 的 推荐 池 有 《 独 
SH) 《星球 大 战 》《 变 形 金 刚 》 等 多 部 作品 , 但 是 其 他 用 户 对 《独立 日 》 的 平均 评分 是 
3.5 分 , 对 于 《星球 大 战 》 是 4.8 分 , 对 于 《变形 金刚 》 是 3.1 分 , 这 时 系统 可 以 进一步 挑 
选 平均 分 最 高 的 《星球 大 战 》 推荐 给 用 户 4。 

通过 以 上 四 步 , 就 可 以 快速 构建 一 个 推荐 系统 。 并且 基于 内 容 的 推荐 方法 用 户 易 于 
里 解 ,简单 有 效 , 常常 和 其 他 推荐 方法 共同 应 用 于 推荐 系统 中 。 

基于 内 容 的 推荐 方法 的 优点 是 : 

QD 物品 没有 冷 启动 问题 , 因为 物品 的 内 容 特征 不 依赖 于 用 户 数据 ; 同时 推荐 出 的 物 
品 不 会 存在 过 于 热门 的 问题 

@ 能 为 具有 特殊 兴趣 爱好 的 用 户 进行 推荐 ; 

@ 原 理 简单 , 易于 定位 问题 。 


ra 
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41.2 ”基于 内 容 推 荐 的 特征 提取 


上 一 节 中 介绍 了 基于 内 容 进行 推荐 的 基础 流程 , 但 是 这 种 方法 建立 在 物品 已 经 有 明 
确 的 内 容 特征 的 基础 上 。 当 数据 库 中 并 没有 内 容 特征 数据 时 ， 该 如 何 处 理 ? 本 节 将 进 一 
步 介绍 内 容 的 特征 如 何 提取 和 计算 。 真实 推 荐 系统 中 待 推荐 的 物品 往往 都 会 有 一 些 可 以 
描述 它 的 特征 。 这 些 特 征 通常 可 以 分 为 两 种 : 结构 化 的 (structured) 特征 与 非 结构 化 的 
Cunstructured) 特征 。 所 谓 结构 化 特征 就 是 特征 的 取 值 限定 在 某 个 区 间 范 围 内 , 并且 可 
以 按照 定 长 的 格式 来 表示 。 例如 上 面 的 电影 类 别 特征 , 算法 人 员 往 往 会 和 编辑 提前 约定 
好 所 有 可 选 的 电影 类 别 , 并 把 所 有 备 选 的 电影 都 标注 上 这 些 类 别 标签 。 假 如 可 选 的 电影 
类 别 有 “ 爱 情 、 剧 情 、 科 幻 、 战 争 、 中国、 日 本 、 韩国、 美国 ”共计 8 个 类 别 (当然 真实 
的 分 类 远 不 止 8 个 )。《 星 球 大 战 ) 同时 具有 科幻 和 美国 2 个 内 容 特征 , 那么 它 的 结构 化 
特征 可 用 一 个 8 位 的 二 进 制 数 表示 。 

表 4.2 电影 内 容 特 征 二 进 制 表示 


爱情 剧情 科幻 战争 中 国 日 本 韩国 美国 
0 0 1 0 0 0 0 1 


其 中 0 表示 该 电影 不 具备 该 特征 , 1 表示 该 电影 具备 该 特征 。 

非 结构 化 的 特征 往往 无 法 按 固定 格式 表示 , 最 常见 的 非 结构 化 数据 就 是 文章 。 例如 
对 推荐 文章 , 我 们 往往 会 把 文本 上 的 非 结构 化 特征 转化 为 结构 化 特征 , 然后 加 入 到 模型 
中 使 用 。 下 面 我 们 就 详细 介绍 如 何 把 非 结构 化 的 文字 信息 结构 化 : 

例如 N 个 待 推荐 文章 的 集合 为 D = (di, dz,d3,… ,dn}， 而 所 有 文章 中 出 现 的 词 的 
集合 为 了 = {t,t2,t3… tm}, 下 面 将 其 称 为 词典 (对 于 英文 文本 , 可 直接 取 单 词 ; 对 于 
中 文 文章 , 需要 先进 行 分 词 , 常用 的 开源 分 词 工 具有 结巴 分 词 上 、 中 科 院 分 词 等 )。 也 就 
是 说 , 我 们 有 N 篇 待 推 荐 的 文章 , 而 这 些 描述 里 包含 了 m 个 不 同 的 词 。 我 们 最 终 要 使 用 
一 个 向 量 来 表示 每 一 篇 文章 ， 比 如 第 j 篇 文章 表示 为 dj = (wij,w2;,… ,wnj)， 其 中 wg 
表示 第 1 个 词 ti 在 第 ; 篇 文章 中 的 权重 , 该 值 越 大 表示 越 重 要 ; d; 中 其 他 向 量 的 解释 
类 似 。 所 以 , 现在 关键 就 是 如 何 计 算 a; 各 分 量 的 值 了 。 有 以 下 几 种 常见 的 计算 方法 : 

(1) 基础 统计 法 : 例如 ， 如果 词 出 现在 第 j 篇 文章 中 ,我们 可 以 选取 wi; 为 1; 
WR t 未 出 现在 第 ; 篇 文章 中 , 选取 Wij 为 0。 我 们 也 可 以 选取 Wij 为 词 t 出 现在 第 了 
个 商品 描述 中 的 次 数 (frequency ) 。 


(D https://pypi.org/project/jieba/ 
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(2) 词 频 统 计 法 : 基础 统计 法 , 只 考虑 了 词 是否 出 现在 某 一 篇 文章 中 , 并 没有 考 
虑 其 整体 出 现 的 频次 。 例如 词 ERI, 第 7 篇 文章 包含 这 个 词 , 则 wy 取 1, 但 这 个 
词 其 实 并 没有 信息 量 , 因为 很 多 文章 都 包含 了 “我 们 ”, wi 都 会 取 1。 所 以 通常 会 引入 词 
频 - 逆 文档 频率 中 。 第 ; 篇 文章 与 词典 里 第 个 词 对 应 的 TF-IDF X: TF — IDF(t,,dj) = 
TF (tid) log S, 其 中 TP (th, d;) 是 第 个 词 在 第 j 个 商品 描述 中 出 现 的 次 数 ， 出 现 
的 次 数 越 多 , 代表 该 词 越 重 要 ,从 而 TF 值 越 大 。 而 ns 是 包括 第 个 词 的 文章 数量 , n 
越 少 ,代表 该 词 越 稀有 , 越 能 代表 这 篇 文章 ， 从 而 TF 值 越 大。 最 终 第 个 词 在 文章 j 
中 的 权重 由 下 面 的 公式 获得 : 


TF —IDF(ty,d; 
Wk,j = . TF-IDF(td;) . (4-1) 


STF — IDF (tp, dj)? 

il 
做 归 一 化 的 好 处 是 不 同文 字 描 述 的 表示 向 量 被 归 一 到 一 个 量 级 上 ， 便 于 下 面 步骤 的 操 
作 。 这 时 候 我 们 已 经 获得 每 篇 文章 的 内 容 特 征 向 量 , 形 如 d; = (wiz, wj, wai) 下 一 
步 就 可 以 计算 用 户 的 内 容 偏 好 ， 比 较 直 接 的 做 法 就 是 取 用 户 喜 欢 文章 的 向 量 平均 值 。 假 
RAP k 喜欢 第 1、3、7 篇 文章 , 则 该 用 户 的 内 容 特 征 向 量 为 : Ui = (dia + dks 十 dk7)/3 = 
(Uik, Uik: ,Unk)。 那 么 用 户 EXE t 上 的 得 分 则 可 用 以 下 余弦 公式 计算 : 


Y (wi x wa) 
Uk de i=l 


livxlllladll [a n 
Yu x wit? 
i=1 i=1 


def CosSimilarCompute(U_k, W_t): 
if( len(U_k) != len(W_t) ): 


score = cos 0 = (4-2) 


实现 计算 的 代码 参考 如 下 : 


assert("user vector size not equals item vector ") 
if (len(U_k)==0): 

assert ("user vector size equal to 0") 
i=0 
Scorei = 0 


Score2 = 0 


(D term frequency-inverse document frequency, 简称 TF-IDF 
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Score3 = 0 
while( i < len(U_k) ) 
Scorel Scorel + U_k[i]*W_t[i] 
+ U.k[il*U k[i] 
* 


Score2 - Score2 
= W-t[i]*W-t[i] 


Score3 Score3 
i = iti 

if (Score3==0 or Score2==0): 
assert("user or item vector equal to 0") 


return Score1*1.0/(math.sqrt (Score2)*math. sqrt (Score3) ) 


在 实际 项 目 中 ， 我 们 并 不 需要 自己 定义 余弦 计算 方法 ， 可 以 直接 调用 numpy.linalg 
完成 向 量 的 计算 。 numpy.linalg 模块 包含 线性 代数 的 函数 。 使 用 这 个 模块 , 可 以 计算 逆 答 
阵 、 求 特征 值 、 解 线性 方程 组 以 及 求解 行列 式 等 。 


## 直 接 使 用 向 量 计算 余弦 距离 
def cosSim(U_k, W_t): 
num = float(U k.T*W t) 
denom = linalg.norm(U_k)*linalg.norm(W_t) 


return 0.5+0.5*(num/denom) 


这 时 推荐 系统 取得 分 score 最 高 的 文章 推荐 即 可 。 余弦 值 的 范围 在 [-1,1] 之 间 , fH 
越 趋 近 于 1, 代表 两 个 向 量 的 方向 越 接近 , 用 户 越 可 能 喜欢 ; 值 越 趋 近 于 -1, 它们 的 方 
向 越 相 反 ， 则 用 户 越 不 可 能 喜欢 。 这 样 ， 我 们 就 完成 了 文章 这 种 不 具备 结构 化 内 容 特征 
的 物品 的 推荐 。 


4.2 ”基于 协同 的 推荐 算法 


基于 内 容 的 推荐 方法 用 户 易于 理解 , 简单 有 效 , 但 是 它 的 缺点 也 十 分 明显 。 
(1) 它 要 求 内 容 必须 能 够 抽取 出 有 意义 的 特征 , 且 要 求 这 些 特征 内 容 有 良好 的 结构 


(2) 推荐 精度 较 低 , 相同 内 容 特征 的 物品 差异 性 不 大 。 

因为 以 上 这 些 原因 ,在 推荐 系统 中 基于 内 容 的 推荐 往往 会 和 其 他 方法 混合 使 用 。 H 
前 来 说 , 推荐 系统 中 最 常见 的 算法 就 是 基于 邻 域 的 算法 。 基 于 邻 域 的 推荐 算法 可 以 分 为 
两 大 类 , 一 类 是 基于 用 户 的 协同 过 滤 ; 另 一 种 是 基于 物品 的 协同 过 滤 。 尿布 和 啤酒 的 故 
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事 在 数 据 挖 据 领 域 十 分 著名 。 这 个 故事 的 真实 性 有 待考 究 , 但 是 它 切切 实 实说 明了 物品 
相关 性 在 推荐 时 的 重要 性 。 该 故事 是 说 ,在 美国 沃尔玛 连锁 店 超市 ,尿布 和 啤酒 总 是 摆 
在 一 起 出 售 , 但 是 这 个 奇怪 的 举措 却 使 尿布 和 啤酒 的 销量 双双 增加 了 。 原 来 , 美国 的 妇 
女 们 经 常会 嘱 只 她 们 的 丈夫 下 班 以 后 要 为 孩子 买 尿布 。 而 丈夫 在 买 完 尿布 之 后 又 要 顺手 
买 回 自己 爱 喝 的 啤酒 ， 因 此 啤酒 和 尿布 在 一 起 购买 的 机 会 还 是 很 多 的 。 是 什么 让 沃尔玛 
发 现 了 尿布 和 啤酒 之 间 的 关系 呢 ? 正 是 商家 通过 对 超市 一 年 多 的 原始 交易 数据 进行 详细 
的 分 析 , 才 发 现 了 这 对 神奇 的 组 合 。 FKE, 现在 主流 的 电 商 平台 上 ,都 是 基于 该 思想 
进行 推荐 ， 比 如 因为 你 购买 了 鼠标 ， 所 以 给 你 推荐 键盘 ; 因为 你 购买 了 手机 壳 ， 所 以 给 
你 推荐 手机 贴膜 。 

协同 过 滤 算 法 起 源 于 1992 E, 被 Xerox 公司 用 于 个 性 化 定制 邮件 系统 。 类 似 于 如 今 
知 乎 、 果 壳 会 为 你 发 送 个 性 化 的 邮件 那样 ，Xerox 公司 也 想 知道 它 的 用 户 对 什么 感 兴趣 ， 
以 便 给 每 个 人 发 送 个 性 化 的 邮件 。 为 了 达到 这 个 目的 ，Xerox 公司 的 用 户 需 要 在 数 十 种 
主题 中 选择 三 到 五 种 主题 , 协同 过 滤 算 法 根据 不 同 的 主题 过 滤 邮 件 ， 最终 达 到 个 性 化 的 
目的 。 

1994 年 时 , 协同 过 滤 算 法 中 第 一 次 引入 了 集体 智慧 的 概念 。 集 体 智慧 指 的 是 利用 大 
基数 人 和 群 和 数据 获取 知识 。 比 如 维基 百科 就 是 一 个 典型 的 集体 智慧 案例 ， 它 允许 用 户 贡 
献 自己 的 知识 ， 从 而 建造 了 世界 上 最 全 面 的 百科 网 站 ， 比 任何 一 本 百科 全 书 都 要 全 面 且 
准确 。 

协同 过 滤 算 法 尝试 在 算法 中 加 入 集体 智慧 的 元 素 。 根 据 这 一 想法 完成 的 GroupLens 
系统 主要 用 于 新 闻 筛 选 。 在 这 个 系统 中 , 每 一 个 用 户 阅读 完 一 条 新 闻 后 都 会 给 出 一 个 评 
分 ，GroupLens 系统 负责 将 这 些 评分 收集 起 来 ,并 根据 这 些 评分 确定 新 闻 要 不 要 推送 出 
去 , 以 及 应 该 推送 给 谁 。 

Xerox 公司 则 使 用 人 工 确定 邮件 主题 ， 工 程 师 需要 明确 地 告诉 程序 每 封 邮件 的 主题 
是 什么 , 再 将 邮件 发 给 对 这 些 主题 感 兴趣 的 人 。GroupLens 系统 首次 利用 了 集体 数据 , 即 
根据 用 户 的 反应 让 程序 自主 学 习 每 条 新 闻 的 主题 是 什么 。 这 两 种 做 法 有 本 质 上 的 差别 ， 
前 者 需要 耗费 更 多 的 人 力 资 源 ， 同 时 准确 度 也 不 高 , 基本 属于 硬 编程 的 范畴 ; 而 后 者 对 
人 力 资源 的 需求 并 不 高 , 同时 拥有 较 高 的 准确 度 , 已 经 跨 入 机 器 学 习 的 行列 。 

继 GroupLens 系统 后 , 协同 过 滤 算 法 迅速 占领 了 推荐 系统 的 市 场 。 推 荐 系统 需要 同 
时 具备 速度 快 和 准确 度 高 两 个 特点 , 它 必 须 在 用 户 打开 网 站 的 几 秒 钟 内 做 出 反应 , 同时 
推荐 的 东西 必须 是 用 户 感 兴趣 的 。 这 两 个 条 件 无 论 哪 一 个 得 不 到 满足 , 推荐 系统 都 是 没 
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有 意义 的 。 协 同 过 滤 算 法 同时 满足 了 这 两 个 条 件 , 这 就 是 它 为 什么 经 久 不 衰 的 原因 。 


4.2.1 ”基于 物品 的 协同 算法 


本 节 先 介绍 基于 物品 的 协同 过 滤 , 上 文 提 到 的 啤酒 与 尿布 就 是 典型 的 协同 过 滤 算 法 。 
基于 物品 的 协同 过 滤 算 法 的 核心 思想 : 给 用 户 推荐 那些 和 他 们 之 前 喜欢 的 物品 相似 的 物 
mhe WE 4.2 所 示 ， 当 当 网 在 每 本 书 的 销售 页 面 下 方 都 有 相似 商品 的 推荐 。 当 你 购买 了 
《 明 朝 那些 事 儿 》 后 ， 系 统 就 会 推荐 《 鱼 羊 野史 》 等 相似 的 书 。 不 同 于 基于 内 容 的 推荐 ， 
基于 物品 的 协同 过 滤 中 的 相似 主要 是 利用 了 用 户 行为 的 集体 智慧 。 


[ ex-emxems | 


“ENEE: 


图 4.2 截取 自 当 当 网 


-i 


另 一 个 例子 是 音乐 推荐 系统 ， 例 如 QQ 音乐 每 首 歌曲 都 会 有 相似 歌曲 的 推荐 ， 如 
图 4.3 所 示 。 它 是 利用 了 用 户 的 收藏 行为 计算 歌曲 的 相关 分 数 。 


图 4.3 截取 自 QQ 音乐 APP 
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基于 物品 的 协同 算法 首先 计算 物品 之 间 的 相似 度 , 计算 相似 度 的 方法 有 以 下 几 种 。 
CD 基于 共同 喜欢 物品 的 用 户 列表 计算 . 例如 上 面 当当 网 给 出 的 理由 是 “经 常 一 起 
购买 ”。 通 过 公式 计算 一 起 购买 的 方法 是 
ING)YNG)I E 
NORINO] 
在 此 , 分母 中 NG) 是 购买 物品 i 的 用 户 数 , N(j) 是 购买 物品 j 的 用 户 数 , TAF NON 
NG) 是 同时 购买 物品 i 和 物品 j 的 用 户 数 。 可 见 上 述 的 公式 的 核心 是 计算 同时 购买 这 
两 本 书 的 人 数 比例 。 当 同时 购买 这 两 个 物品 人 数 越 多 ， 他 们 的 相似 度 也 就 越 高 。 另 外 值 
得 注意 的 是 , 在 分 母 中 我 们 用 了 物品 总 购买 人 数 做 惩罚 ， 也 就 是 说 某 个 物品 可 能 很 热门 ， 
导致 它 经 常会 被 和 其 他 物品 一 起 购买 , 所 以 除 以 它 的 总 购买 人 数 ,来 降低 它 和 其 他 物品 
的 相似 分 数 。 举 例 来 说 , 如 图 4.4 所 示 , 用 户 4 对 物品 il 记 、 i4 有 购买 行为 , 用 户 BB 对 


物品 i2、i4 有 购买 行为 等 。 
© 
© 
© 
o 


图 4.4 用 户 购 买 物品 记录 


构造 一 个 N x N 的 矩阵 C， 存 储 物品 两 两 同时 被 购买 的 次 数 。 遍 历 每 个 用 户 的 购 
KGL, 当 i 和 j 两 个 物品 同时 被 购买 时 ， 则 在 矩阵 C 中 (i,j) 的 位 置 上 加 1。 当 遍历 
完成 时 ， 则 可 得 到 共 现 次 数 矩 了 泗 C， 如 图 4.5 所 示 。 其 中 ,CW][j] 记录 了 同时 喜欢 物品 
i 和 物品 j 的 用 户 数 , 这 样 我 们 就 可 以 得 到 物品 之 间 的 相似 度 和 矩阵 W。 在 上 面 的 例子 中 
(i1, 42), (i2, 14) 这 两 个 相似 物品 分 别 被 2 个 用 户 同时 购买 过 , 即 共 线 次 数 为 2。 


Wij = 
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4.5 同时 被 购买 次 数 矩 阵 C 
以 上 计算 可 参考 如 下 代码 : 


## TtemCF 算 法 
def ItemSimilarity(train): 
C = dict()  ## 书 本 对 同时 被 购买 的 次 数 
N = dict()  ”## 书 本 被 购买 用 户 数 
for u,items in train.items(): 
for i in items.keys(): 
if i not in N.keys(): 
N[i]=0 
N[i] += 1 
for j in items.keys(): 
if i == j: 
continue 
if i not in C.keys(): 
Clil=dict() 
if j not in C[i].keys(): 
Cctilfjl-0 
### 当 用 户 同 时 购买 了 i 和 j， 则 加 1 
Cri][j] += 1 
W= dict() ## 书 本 对 相似 分 数 
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for i,related_items in C.items() : 
if i not in W.keys(): 
WL[il-dictO 
for j,cij in related items.items(): 
W[ill[j] = cij / math.sqrt( N[i] * N[j]) 


return W 


if __name__ == ' main. .': 

Train Data = ('A':('ii':1,'i2':1 ,'i4':1), 
Bt 
ors 
ds 
'E' :('i3':1, 'i5b':1), 

'F':('i2':1,'i4':1) 
了 


W=ItemSimilarity(Train_Data) 


运行 以 上 代码 , FY AIE EJ i RI ASAE AU BE RE FF: 


Key| Type Size Value 

[ia |dict 3 (127: 0.5773502691896258, '14': 0.6666666666666666, '15': 0.4082482904638631) 

12 dict 4  ('11': 0.5773502691896258, '13': 0.35355339059327373, "14": 0.5773502691896258, 'i5': 0.35355339059327373) 
i3 dict 2 ('i2': 0.35355339059327373, 'i5': 0,5) 

id dict 2  ('il': 0.6666666666666666, '12': 0.5773502691896258) 

15 dict 3 — ('il': 0.4082482904638631, '12': 0.35355339059327373, '13': 0.5) 


图 4.6 相似 度 计算 结 果 1 


(2) 基于 余弦 (Cosine-based) 的 相似 度 计算 上 面 的 方法 计算 物品 相似 度 是 直接 使 用 
同时 购买 这 两 个 物品 的 人 数 。 但 是 也 有 可 能 存在 用 户 购买 了 但 不 喜欢 的 情况 。 所 以 如 果 
数据 集 包 含 了 具体 的 评分 数据 , 我 们 可 以 进一步 把 用 户 评分 引入 到 相似 度 计算 中 。 可 利 


用 上 节 提 到 的 余弦 公式 计算 任意 两 本 书 的 相似 度 ， 公 式 如 下 : wij = cosb = i = 
len 


Y (Mri x mg) 
k=1 


E 
len len 
2 2 
Son! x | my 
k=1 k=1 


的 代码 如 下 : 


其 中 nki 是 用 户 对 物品 i 的 评分 , 如 果 没 有 评分 则 为 0。 实现 
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## ItemCF- 余 弦 算 法 
def ItemSimilarity_cos(train) : 
C = dictO  ## 书 本 对 同时 被 购买 的 次 数 
N = dict() ## Ak X n P 
for u,items in train.items(): 
for i in items.keys(): 
if i not in N.keys(): 
N[i]=0 
N[i] += itens[i]* itens[i] 
for j in items.keys(): 
if i == j: 
continue 
if i not in C.keys(): 
C[iJedictO 
if j not in C[i].keys(): 
cri][j]=0 
## 当 用 户 同时 购买 了 i 和 j， 则 加 评分 乘积 
C[i][j] += items [i]*items[j] 
W = dict() ## 书 本 对 相似 分 数 
for i,related items in C.items(): 
if i not in W.keys(): 
W[il-dict() 
for j,cij in related items.items(): 
W[i][j] = cij / (math.sqrt( N[i]) *math.sqrt( N[j]) ) 


return W 


if __name__ == '__main__': 
Train Data = {'A':{'i1':1,'i2':1 ,'i4':1), 
A E AE S MaE Pa T SE E 
O^ ita^: t2 1, 45:1) 
'D'if'i2':1,'13':1), 
'"B'i['i9':1,'15':1), 
'E'if*i2t':1,'44':1) 
了 


W- ItemSimilarity_cos (Train Data) 


运行 以 上 代码 , WOE S IRL OE, PRA 1 的 时 候 , 该 方法 
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与 基于 共同 喜欢 物品 的 用 户 列表 计算 的 结果 一 致 , 读者 有 兴趣 的 话 , 可 以 修改 上 面 例子 
中 的 评分 数据 , 观察 结果 的 变化 。 


Key Type ‘Size Value 

il dict 3 ('12': 0.5773502691896258, 'i4': 0.6666666666666667, 'i5': 0.40824829046386296) 

12 dict 4  ('i1': 0.5773502691896258, '13': @.35355339059327373, '14': 0.5773502691896258, '15': 0.35355339059327373) 
13 dict 2 {*42": 0.35355339059327373, 'i5': 0.4999999999999999) 


id dict 2  ('il': 0.6666666666666667, 'i2': 0.5773502691896258) 
15 dict 3  ('i1': 0.40824829046386296, '12': 0.35355339059327373, '13': 0.4999999999999999) 


4.7 相似 度 计算 结果 2 


(3) 热门 物品 的 惩罚 。 从 相似 度 计算 公式 中 , 我 们 可 以 发 现 当 物品 i 被 更 多 人 购买 
时 , 分子 中 的 NG) ANG) 和 分 母 中 的 N(i) 都 会 增长 。 对 于 热门 物品 , 分 子 NANG) 
的 增长 速度 往往 高 于 N(i), 这 就 会 使 得 物品 i 和 很 多 其 他 的 物品 相似 度 都 偏 高 , 这 就 是 
ItemCF 中 的 物品 热门 问题 。 推荐 结果 过 于 热门 , 会 使 得 个 性 化 感知 下 降 。 以 歌曲 的 相似 
为 例 , 大 部 分 用 户 都 会 收藏 小 苹果 》 这 些 热 门 歌曲 , 从 而 导致 (小 苹果 》 出 现在 很 多 的 相 
似 歌曲 中 。 为 了 解决 这 个 问题 , 我 们 对 于 热门 物品 i 进行 惩罚 , 例如 下 式 , 当 a € (0,0.5) 
时 , N(i) 越 小 , 惩罚 得 越 厉害 ,从 而 会 使 热门 物品 相关 性 分 数 下 降 。 


NONNO 
wi = NOE NG (4-4) 


计算 代码 参考 如 下 : 


## 改进 算法 
def ItemSimilarity alpha(train,alpha-0.3): 
C = dictO — ## 书 本 对 同时 被 购买 的 次 数 
N = dict()  ## 书 本 被 购买 用 户 数 
for u,items in train.items(): 
for i in items.keys(): 
if i not in N.keys(): 
N [i]=0 
N[i] += 1 
for j in items.keys(): 
if i = j; 
continue 
if i not in C.keys(): 
Clil=dict() 
if j not in C[i].keys(): 


we 


dict () 


c[i] [j] 


=0 


## 当 用 户 同时 购买 了 i 和 j， 则 加 1 


cli) Cj] += 


1 


#EB A k EEA 


for i,related_items in C.items(): 


if i not in W.keys(): 
Ww[iledictO 
for j,cij in related items.items(): 


W[il[j] = cij / (math.pow(N[il,alpha)*math.pow(N[j]l,1-alpha) ) 


return W 


if ..name.. 


Train_Data 


Bt 

"Orit dl! 

'D'i('i2': 

'E! (5185: 

'F' IT'i2， 
} 


"main,.': 


= , "i4" 


1,'i4':1), 
11,'12':1,!'45'*:1); 
1,'i3':1), 
1,"'15'*:1); 
:1,'i14' :1) 


W= ItemSimilarity. alpha (Train_Data) 
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运行 以 上 代码 , T AEEA h Te AOA AE RE, 可 以 观察 到 i2 因为 比较 热门 , 被 降 
BUE T], 与 其 他 物品 的 相似 分 数 显著 降低 。 


Key Type 


il 
i2 
i3 
ia 
i5 


dict 
dict 
dict 
dict 
dict 


Size 


3 
4 
2 
2 
3 


(Cari 
Cus 
qiz: 
Cu 
(Cu: 


9.5450691787846755,, 
9.6115431697616012, 
9.3077861033362291, 
0. 6666666666666666, 
0.3764489784856185, 


Value 


714': 0.6666666666666666, '15': 0.44273374664777815) 

713': 0.40612619817811785, '14': 0.6115431697616012, ‘15°: 0.40612619817811785) 
"i5: 9.5) 

*42": 0.5450691787846755] 
712': 0.3077861033362291, "13": 0.5) 


图 4.8 相似 度 计 算 结果 3 


在 得 到 物品 之 间 的 相似 度 后 , 进入 第 二 步 。 按 如 下 公式 计算 用 户 对 一 个 物品 i 的 
预测 分 数 : 


Dui — 


> 


N(u)N Sk) 


WjiSCOTEeui 


(4-5) 


其 中 SG, k) 是 物品 j 相似 物品 的 集合 , 一 般 来 说 j 的 相似 物品 集合 是 相似 分 数 最 高 的 大 
^. 参照 上 面 计算 得 出 的 相似 分 数 。scorew: 是 用 户 对 已 购买 的 物品 i 的 评分 , 如 果 没 有 
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评分 数据 ， 则 取 1。 如 果 待 打分 的 物品 和 用 户 购买 过 的 多 个 物品 相似 ， 则 将 相似 分 数 相 
加 ， 相 加 后 的 得 分 越 高 , 则 用 户 购买 可 能 性 越 大 。 比 如 用 户 购 买 过 《 明 朝 那些 事 儿 》( 评 
分 0.8 分 ) 和 《 品 三 国 》( 评 分 0.6 分 ), 而 《 鱼 羊 野史 》 和 《 明 朝 那些 事 儿 》 相 似 分 是 0.2 
分 ,《 鱼 羊 野史 》 和 《 品 三 国 》 的 相似 分 数 是 0.1 分 , 则 用 户 在 《 鱼 羊 野史 》 上 的 分 数 则 为 
0.22 分 (0.8x0.2+0.6x0.1)。 这 时 候 找 出 与 用 户 喜 欢 的 物品 相似 度 高 的 top N 个, 也 就 是 
分 数 最 高 的 个 作为 推荐 的 候选 。 


# 结 合用 户 喜 好 对 物品 排序 
def Recommend(train,user id,W,K): 
rank = dict() 
ru = train[user_id] 
for i,pi in ru.items(): 
tmp-W[i] 
for j,wj in sorted(tmp.items(),key=lambda d: d[1],reverse=True) [0:K]: 
if j not in rank.keys(): 
rank[j]-0 
##r 如 果 用 户 已 经 购买 过 ， 则 不 再 推荐 
if j in ru: 
continue 
## 待 推荐 的 书本 j 与 用 户 已 购买 的 书本 i 相似 ， 则 累加 上 相似 分 数 
rank[j] += pi*wj 


return rank 


if ..name.. == '__main__': 
Train Data = ('A':('ii1':1,'i2':1 ,'i4':1), 
d aas aE S EET Pid t ES i 


Ot 
D':('i2':1,'i3':1), 
E'r('13':1,'15':1), 
F':('i2':1,'i4':1) 


了 
W=ItemSimilarity_alpha(Train_Data) 


Recommend (Train_Data,'C',W,3) 


在 上 面 的 计算 过 程 中 , 我 们 发 现 还 有 一 个 未 定义 参数 及， 即 对 物品 相似 物品 中 top- 
K 个 物品 进行 召回 , 过 大 的 K, 会 召回 很 多 相关 性 不 强 的 物品 ,导致 准 确 率 下 降 ; 过 小 
的 K 会 使 召回 的 物品 过 少 , 使 得 准确 率 也 不 高 。 一 般 来 说 , 算法 工作 人 员 需 要 尝试 不 同 
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的 K 值 对 比 算法 准确 率 和 召回 率 , 以 便 选择 最 佳 的 K 值 。 


4.2.2 ”基于 用 户 的 协同 算法 


基于 用 户 的 协同 过 滤 (User CF) 的 原理 其 实 是 和 基于 物品 的 协同 过 滤 类 似 的 。 所 不 
同 的 是 , 基于 物品 的 协同 过 滤 的 原理 是 用 户 U 购买 了 A 物品 , 推荐 给 用 户 U 和 A 相似 
的 物品 B. C. D. 而 基于 用 户 的 协同 过 滤 , 是 先 计算 用 户 U 与 其 他 的 用 户 的 相似 度 , 然 
ERA U 最 相似 的 几 个 用 户 , 把 他 们 购买 过 的 物品 推荐 给 用 户 UV。 在 当当 网 的 页 面 上 ， 
同样 有 类 似 的 应 用 , 见 图 4.9。 


SAL — — — — — — — — — — — 15 


图 4.9 "— 


为 了 计算 用 户 相似 度 , 我 们 首先 要 把 用 户 购买 过 物品 的 索引 数据 转化 成 物品 被 用 户 
购买 过 的 索引 数据 , 即 物品 的 倒 排 索引 ， 见 图 4.10。 


TTT moo 

o mm ll 

© ngu go 

@ mu goo 
go 


410 物品 的 倒 排 索引 
建立 物品 倒 排 索引 的 参考 代码 如 下 : 
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## 建 立 物品 倒 排 表 
def defItemIndex(DictUser): 
DictItem=defaultdict (defaultdict) 
## 遍 历 每 个 用 户 
for key in DictUser: 
## 遍 历 用 户 k 的 购买 记录 
for i in DictUser [key]: 
DictItem[i(0]] [key]=i [1] 


return DictItem 


建立 好 物品 的 倒 排 索引 后 ， 就 可 以 根据 相似 度 公 式 计算 用 户 之 间 的 相似 度 : 


apo. (4-6) 
Nol EN 


其 中 N(a) 表示 用 户 a 购买 物品 的 数量 , N (b) 表示 用 户 b 购买 物品 的 数量 , N (a) NN) 
表示 用 户 a 和。 购买 相同 物品 的 数量 。 


gii XL Pado 
def defUserSimilarity(DictItem): 
N-dictO  ”# 用 户 购买 的 数量 
C=defaultdict (defaultdict) 
W=defaultdict (defaultdict) 
## 遍 历 每 个 物品 
for key in DictItem: 
## 遍 历 用 户 k 购 买 过 的 书 
for i in DictItem[key]: 
fU) Jos P Hid ， 如 果 未 计算 过 ， 则 初始 化 为 0 
if i[0] not in N.keys(): 
N[i[0]]=0 
N[i[0]]+=1 
Bü 《ij) 是 物品 kx 同 时 被 购买 的 用 户 两 两 匹配 对 
for j in DictItem[key]: 
if i(0)==j(0): 


continue 


if j[0] not in C[i[0]l.keysO: 
Cc(ito11Lj [011-0 

#C[i[0]] [j[0]] 表 示 用 户 i 和 j 购 买 同样 书 的 数量 

C[i[0]] [j [0]]+=1 
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for i,related user in C.items(): 
for j,cij in related user.items(): 
W[illjl-cij/math.sqrt(N[i]*N[j]) 


return W 
有 了 用 户 的 相似 数据 , 针对 用 户 U 挑选 K 个 最 相似 的 用 户 , 把 他 们 购买 过 的 物品 中 , U 


未 购买 过 的 物品 推荐 给 用 户 U 即 可 。 如 果 有 评分 数据 ， 可 以 针对 这 些 物品 进一步 打分 ， 
打分 的 原理 与 基于 物品 的 推荐 原理 类 似 , 公式 如 下 : 


Pui = > WyuSCOreyy (4-7) 
N(i)f) S(u,k) 
其 中 是 N(i) 物品 i 被 购买 的 用 户 集合 ，S(u,k) 是 用 户 u 的 相似 用 户 集合 ,挑选 最 相似 
HAP k^, 将 重合 的 用 户 v 在 物品 i 上 的 得 分 乘 以 用 户 u A o 的 相似 度 , 累加 后 得 到 
HF u 对 于 物品 i 的 得 分 。 


4.2.3 ”基于 用 户 协同 和 基于 物品 协同 的 区 别 


基于 用 户 的 协同 过 滤 (UserCF) 和 基于 物品 协同 (ItemCF) 在 算法 上 十 分 类 似 ， 推 
荐 系统 选择 哪 种 算法 ,主要 取决 于 推荐 系统 的 考量 指标 。 两 者 主要 的 优 缺 点 总 结 如 下 。 

(1) 从 推荐 的 场景 考虑 。 

ItemCF 是 利用 物品 间 的 相似 性 来 推荐 的 ， 所 以 假如 用 户 的 数量 远 远 超过 物品 的 数 
Æ, 那么 可 以 考虑 使 用 ItemCF， 比 如 购物 网 站 , 因 其 物品 的 数据 相对 稳定 ,因此 计算 物 
品 的 相似 度 时 不 但 计算 量 较 小 , 而 且 不 必 频 繁 更 新 ; UserCF 更 适合 做 新 闻 、 博 客 或 者 微 
内 容 的 推荐 系统 ,因为 其 内 容 更 新 频率 非常 高 , 特别 是 在 社交 网 络 中 , UserCF 是 一 个 更 
好 的 选择 ， 可 以 增加 用 户 对 推荐 解释 的 信服 程度 。 而 在 一 个 非 社交 网 络 的 网 站 中 ， 比 如 
给 某 个 用 户 推 荐 一 本 书 , 系统 给 出 的 解释 是 某 某 和 你 有 相似 兴趣 的 人 也 看 了 这 本 书 , 这 
很 难 让 用 户 信服 , 因为 用 户 可 能 根本 不 认识 那个 人 ; 但 假如 给 出 的 理由 是 因为 这 本 书 和 
你 以 前 看 过 的 某 本 书 相 似 , 这 样 的 解释 相对 合理 , 用 户 可 能 就 会 采纳 你 的 推荐 。 

UserCF 是 推荐 用 户 所 在 兴趣 小 组 中 的 热点 , 更 注重 社会 化 , 而 ItemCF 则 是 根据 用 
户 历史 行为 推荐 相似 物品 , 更 注重 个 性 化 。 所 以 UserCF 一 般 用 在 新 闻 类 网 站 中 , 如 Digg, 
而 ItemCF 则 用 在 其 他 非 新 闻 类 网 站 中 , 如 Amazon, hulu 等 。 
因为 在 新 闻 类 网 站 中 , 用 户 的 兴趣 爱好 往往 比较 粗 粒 度 ， 很 少 会 有 用 户 说 只 看 某 个 
话题 的 新 闻 , 而 且 往往 某 个 话题 也 不 是 每 天 都 会 有 新 闻 。 个 性 化 新 闻 推 荐 更 强调 新 闻 热 
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点 , 热门 程度 和 时 效 性 是 个 性 化 新 闻 推 荐 的 重点 , 个 性 化 是 补充 , 所 以 UserCF 给 用 户 推 
荐 和 他 有 相同 兴趣 爱好 的 人 关注 的 新 闻 , 这 样 在 保证 了 热点 和 时 效 性 的 同时 , 兼顾 了 个 
性 化 。 另 外 一 个 原因 是 从 技术 上 考虑 的 ， 作 为 一 种 物品 ， 新 闻 的 更 新 非常 快 ， 随 时 会 有 
新 的 新 闻 出 现 ， 如 果 使 用 ItemCF 的 话 , 需要 维护 一 张 物品 之 间 相 似 度 的 表 ， 实 际 工业 
界 这 张 表 一 般 是 一 天 一 更 新 , 这 在 新 闻 领 域 是 万 万 不 能 接受 的 。 

但 是 , 在 图 书 、 电 子 商 务 和 电影 网 站 等 领域 , ItemCF 则 能 更 好 地 发 挥 作用 。 因 为 在 
这 些 网 站 中 , 用 户 的 兴趣 爱好 一 般 是 比较 固定 的 ,而 且 相 比 于 新 闻 网 站 更 加 细腻 。 在 这 
些 网 站 中 , 个 性 化 推荐 一 般 是 给 用 户 推荐 他 自己 领域 的 相关 物品 。 另外， 这 些 网 站 的 物 
品 数量 更 新 速度 不 快 ， 相 似 度 表 一 天 一 次 更 新 可 以 接受 。 而 且 在 这 些 网 站 中 , 用 户 数 量 
往往 远 远大 于 物品 数量 ， 从 存储 的 角度 来 讲 ，UserCF 需要 消耗 更 大 的 空间 复杂 度 ， 另 
外 , ItemCF 可 以 方便 地 提供 推荐 理由 , 增加 用 户 对 推荐 系统 的 信任 度 , 所 以 更 适合 这 些 
网 站 。 

(20 在 系统 的 多 样 性 (也 被 称 为 覆盖 率 , 指 一 个 推荐 系统 能 否 给 用 户 提供 多 种 选择 ) 
指标 下 ，ItemCF 的 多 样 性 要 远 远 好 于 UserCF， 因 为 UserCF 会 更 倾向 于 推荐 热门 的 物 
品 。 也 就 是 说 , ItemCF 的 推荐 有 很 好 的 新 颖 性 , 容易 发 现 并 推荐 长 尾 里 的 物品 。 所 以 大 
多 数 情 况 , ItemCF 的 精度 稍微 小 于 UserCF, 但 是 如 果 考 虑 多 样 性 , UserCF 却 比 ItemCF 
要 好 很 多 。 

由 于 UserCF 经 常 推荐 热门 物品 ， 所 以 它 在 推荐 长 尾 里 的 项 目 方面 的 能 力 不 足 ; 而 
ItemCF 只 推荐 A 领域 给 用 户 , 这样 它 有 限 的 推荐 列表 中 就 可 能 包含 了 一 定数 量 的 非 热 
门 的 长 尾 物品 。ItemCF 的 推荐 对 单个 用 户 而 言 ， 显 然 多样 性 不 足 ， 但 是 对 整个 系统 而 
言 , 因为 不 同 的 用 户 的 主要 兴趣 点 不 同 , 所 以 系统 的 覆盖 率 会 比较 好 。 

(3) 用 户 特 点 对 推荐 算法 影响 的 比较 。 对 于 UserCF 推荐 的 原则 是 假设 用 户 会 喜欢 
那些 和 他 有 相同 喜好 的 用 户 喜 欢 的 东西 , 但 是 假如 用 户 暂 时 找 不 到 兴趣 相投 的 邻居 ， 那 
44 UserCF 的 推荐 效果 就 会 大 打折 扣 ， 因此 用 户 是 否 适应 UserCF 算法 跟 他 有 多 少 邻 居 
是 成 正比 关系 的 。 基于 物品 的 协同 过 滤 算 法 也 是 有 一 定 前 提 的 , 即 用 户 喜 欢 和 他 以 前 购 
买 过 的 物品 相同 类 型 的 物品 , 那么 我 们 可 以 计算 一 个 用 户 喜 欢 的 物品 的 自 相似 度 。 一 个 
户 喜 欢 物品 的 自 相似 度 大 , 就 说 明 他 喜欢 的 东西 都 是 比较 相似 的 ， 即 这 个 用 户 比 较 符 
fr ItemCF 方法 的 基本 假设 , 那么 他 对 ItemCF 的 适应 度 自然 比较 好 ; RZ, 如 果 自 相似 
REA, 就 说 明 这 个 用 户 的 喜好 习惯 并 不 满足 ItemCF 方法 的 基本 假设 , 那么 用 ItemCF 方 
法 所 做 出 的 推荐 对 于 这 种 用 户 来 说 , 其 推荐 效果 可 能 不 是 很 好 。 
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4.2.4. 基于 和 矩阵 分 解 的 推荐 方法 


十 多 年 前 , Netflix 发 起 了 Netflix 奖 公 开 竞 赛 , 目标 在 于 设计 最 新 的 算法 来 预测 电影 
评级 。 竞赛 历 时 3 E, 很 多 研究 团队 开发 了 各 种 不 同 的 预测 算法 , 其 中 和 矩阵 分 解 技 术 因 
效果 突出 而 在 众多 算法 中 脱颖而出 。 那 么 矩阵 分 解 的 含义 是 什么 呢 ? 

1. 矩阵 分 解 的 基本 含义 

首先 我 们 需要 知道 特征 值 和 特征 向 量 的 含义 ,基本 定义 如 下 : 


Ar = 和 rz (4-8) 


其 中 矩阵 A EA n x n HERE, c 是 一 个 n 维 向 量 , 则 A 是 矩阵 4 的 一 个 特征 值 ， 
而 z 是 矩阵 A 的 特征 值 A 所 对 应 的 特征 向 量 。 特征 向 量 的 几何 含义 是 : 特征 向 量 > 通 
过 方 阵 4 变换 只 进行 缩放 , 而 方向 并 不 会 变化 。 

如 果 我 们 可 以 求 到 矩阵 4 的 ”个 特征 值 ， 则 可 以 得 到 对 角 和 矩阵 E. 其 展开 为 以 下 
Tex: 


M 0 0 0 
0 x 0 
-| 0 0 ... 0 (4-9) 
Avi 0 
0 0 0 AX 


则 矩阵 A 就 可 以 用 下 式 的 特征 分 解 表示 : 
A-UXU^ (4-10) 


其 中 UU 是 这 个 特征 向 量 所 生成 的 nxn HERB E, 而 马 为 这 ”个 特征 值 为 主 对 角 
线 的 n xn 维 矩阵 。 

一 般 我 们 会 把 U 的 这 n 个 特征 向 量 标准 化 ， 即 满足 U- = UT, EERE A 的 特 
征 分 解 表达 式 可 以 进一步 写成 : 

A-UXZXUT (4-11) 

那么 如 果 4 不 是 方 阵 , 即行 和 列 数目 不 相同 时 , BATTLE RT AA EE EAT 2 ER 2 答 
案 是 可 以 。 其 中 最 常用 的 分 解 方法 是 奇异 值 分 解 (Singular Value Decomposition, SVD). 
下 面 就 对 SVD 的 原理 作 一 个 介绍 。 
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2. SVD 的 基本 含义 
SVD 也 是 对 和 矩阵 进行 分 解 , 但 是 和 特征 分 解 不 同 , SVD 并 不 要 求 要 分 解 的 矩阵 为 方 
FE. 假设 我 们 的 矩阵 A 是 一 个 m x n 的 矩阵 , 那么 我 们 定义 矩阵 A 的 SVD 为 


A-UXZVT (4-12) 


其 中 U 是 一 个 m x m 的 矩阵 , 允 是 一 个 m x n 的 矩阵 ， 除 了 主 对 角 线 上 的 元 素 以 外 全 
为 0, 主 对 角 线 上 的 每 个 元 素 都 称 为 奇异 值 , V 是 一 个 的 nxn ARES 
下 面 我 们 用 一 个 简单 的 例子 来 说 明和 矩阵 是 如 何 进行 奇异 值 分 解 的 。 我们 的 矩阵 A 定 


义 为 
0 1 
a-f: | (4-13) 
1 0 
0 1 
0 1 1 21 
eu- 人 I 中 -人 ) a 
110 12 
10 
0 1 110 
0 1 1 
"p jJ ( 2 | (4-15) 
i 4.0 
1 0 0 11 


进而 求 出 ATA 的 特征 值 和 特征 向 量 , 使 得 AT Av; = Aivi: 


A=3,M=1, (4-16) 
1//2 -1/V2 
vU 一 us] ; 2 = ( No ) (4-17) 
接着 求 出 AAT 的 特征 值 和 特征 向 量 , 使 得 AATv; = Xiui: 
1/v6 
w= 网 1 =3 (4-18) 
1/V6 
1/v2 
u2-— | 0 | ,À2 zw (4-19) 
-1/V2 
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1//3 
s= Dun (4-20) 
1/3 
利用 Av; = oiu; 求 奇异 值 : 
0 1 1/V6 
| | (a)-e [28] => 0, = V3 (4-21) 
1 0 / 1/V6 
| | eg | e) 1 (4-22) 
= 02 => 02 = T 
1 0 UV3 -1/V2 


最 终 得 到 4 的 奇异 值 分 解 为 
1/V6 1//2 1/v3 V3 0 
A-UZVT- [vs 0 aia) | 0 J ( He ve (4-23) 
1/6 -1V8 1/V3 ja A / 
3. SVD 在 推荐 中 的 应 用 
那么 SVD 如 何 应 用 到 推荐 系统 中 的 呢 ? 我 们 还 是 用 一 个 例子 来 解释 。 假 设 和 矩阵 A 
的 维度 是 10x11 维 , 其 中 行 代表 用 户 , 列 代表 物品 , 值 代表 用 户 对 物品 的 评分 当 没 有 
评分 时 , 分 数 为 0。 


图 4.11 用 户 评分 矩阵 


将 该 矩阵 加 载 到 变量 myMat 中 ， 在 Python 中 调用 linalg.svd 即 可 获得 分 解 后 的 
U, X. V 三 个 矩阵 : 


from numpy import* 


def loadExData () : 
return[[0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 5], 
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[0,0, 0, 5, 0, 3, 0, 0, 0, 0, 3], 
[0, 0, 0, 0, 4, 1, 0, 1, 0, 4, 0] 
[3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0], 
(5, 4, 2, 0, 0, 0, 0, 5, 5, 0, 0) 
(0, 0, 0, 0, 5, 0, 1, 0, 0, 0, 0] 
(4, 1, 4, 0, 0, 0, 0, 4, 5, 0, 1], 
(0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4], 
[0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2], 
[1, 0, 0, 4, 0, 0, 0, 1, 2, 0, 01] 


myMat =mat (loadExData ()) 
U,Sigma,VT = linalg.svd(myMat) 


打印 出 D, 如 图 4.12 所 示 。 


oN o oc e OW DH 2 ie 


e 


pi 
A 
已 
g 
E 

® 

Ex 


Sigma 为 奇异 值 向 量 ， 可 以 看 到 一 个 很 明显 的 规则 ,奇异 值 按照 从 大 到 小 排序 而 且 
奇异 值 的 减 小 特别 地 快 , 在 很 多 高 维 的 情况 下 , 前 10% 的 奇异 值 之 和 就 占 了 全 部 奇异 值 
之 和 的 80% 以 上 的 比例 。 本 例 中 的 选择 主要 依据 奇异 值 的 能 量 占 比 ， 原 矩阵 能 量 值 
为 sum(Sigma**2)=452， 降 低 到 k = 3 维 后 能 量 值 sum(Sigma[0:3]**2)=380， 能量 占 比 达 
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84.4%。 也 就 是 说 我 们 可 以 用 最 大 的 上 SATS u A v 中 的 向 量 来 描述 和 矩阵 Ao 
Amen = UmsmEmsnVasn ~ UmskEksk Vien” (4-24) 


EAB P BATTU k = 4, 执行 以 下 命令 


NewData=U[:，:4] * mat(eye(4)*Sigma[:4]) * VT[:4,:] 


把 NewData 打印 出 来 , 如 图 4.13 所 示 。 


图 4.13 NewData 值 


对 比 原始 数据 Mydata: 


4.14 Mydata 值 


对 比 两 个 矩阵 ， 发 现 高 分 的 值 都 十 分 接近 。 这 说 明 我 们 可 以 用 Use Eee Vian 这 3 
个 矩阵 表征 原始 的 矩阵 4。 将 物品 的 评分 矩阵 AT 映射 到 低 维 空间 ATU mee Eben’ 中 , 其 
维度 为 由 n x m 降低 到 nx ko 然后 再 计算 物品 item 之 间 的 相似 度 , 这 时 候 每 个 item 的 
维度 由 m 降低 到 "， 从 而 提升 了 计算 效率 。 

一 般 来 说 , m 代表 样本 的 用 户 数 , 维度 会 很 高 , 而 k << my 这 种 表示 方法 对 在 线 推 
荐 系统 意义 十 分 巨大 , 大 大 减轻 了 线 上 存储 和 计算 的 压力 。 

推荐 实现 代码 如 下 : 

##refers to http://blog.csdn.net/c40649576 


## 基 于 SVD 的 评分 估计 
##dataMat 是 输入 矩阵 
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##simMeas 是 相似 度 计算 函数 
##user 和 item 是 待 打 分 的 用 户 和 item 对 
def svdEst(userData,xformedItems , user, simMeas , item) 
n = shape(xformedItems) [0] 
simTotal = 0.0; ratSimTotal = 0.0 
# 对 于 给 定 的 用 户 ，for 循 环 所 有 物品 ， 计 算 与 item 的 相似 度 
for j in range(n) 
userRating = userData[:,j] 
if userRating == 0 or j == item : continue 
similarity = simMeas(xformedItems[item, :].T, xformedItems[j, :].T) 
# Print 便 于 了 解 相似 度 计算 的 进展 情况 


print ('the 4d and %d similarity is : %f' % (item, j, similarity)) 


# 对 相似 度 求 和 
simTotal += similarity 
# 对 相似 度 及 评分 值 的 乘积 求 和 
ratSimTotal += similarity * userRating 
if simTotal == : return 0 
else : return ratSimTotal/simTotal 
## 基 于 SVD 的 进行 推荐 


## 寻 找 未 评级 的 物品 ， 对 给 定 用 户 建立 一 个 未 评分 的 物品 列表 
def recommend (dataMat , user, N-3, simMeas-cosSim, estMethod-svdEst): 
U,Sigma,VT = linalg.svd(dataMat) 
IR ETHICS SE — ANT f AERE 
Sig4 = mat(eye(4)*Sigma[:4]) 
"PL FUSE EAS Ah do HE AR SI AK HES IR] pP 
xformedItems = dataMat.T * U[:, :4] * Sig4.I 
print ('xformedItems=',xformedItems) 


print ('xformedItems/j fe 5] 3%' , shape (xformedItems) ) 


unratedItems = nonzero(dataMat[user, :].A == 0) [1] 
print ('dataMat[user, :].A=',dataMat[user, :].A) 
print ('nonzero(dataMat[user, :].A == 0) 结 果 为 '， 


nonzero(dataMat[user, :].A == 0)) 
# 如 果 不 存 在 未 评分 物品 ， 退 出 函数 ， 否 则 在 所 有 未 评分 物品 上 进行 循环 
if len(unratedItems) == 0: return ('you rated everything') 
itemScores - [] 


for item in unratedItems: 
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print('item-',item) 
# 对 于 每 个 未 评分 物品 ， 通 过 调用 standEst() 来 产生 该 物品 基于 相似 度 的 预测 评分 
estimatedScore = estMethod (dataMat [user, :],xformedItems , user, 
simMeas , item) 
# 该 物品 的 编号 和 估计 得 分 值 会 放 在 一 个 元 素 列表 itemScores 
itemScores.append((item, estimatedScore)) 
# 寻找 前 N 个 未 评级 物品 


return sorted(itemScores, key=lambda jj: jj[1] ，reverse=True) [:N] 


myMatzmat(loadExData ()) 
result=recommend (myMat , 1, estMethod-svdEst) 


#print (result) 


运行 以 上 程序 后 , 可 以 看 到 用 户 1 对 所 有 未 评分 过 的 物品 的 预测 过 程 ， 日志 中 会 打 
印 待 评分 物品 i 和 用 户 已 评分 过 的 物品 相似 分 数 。 


xformedItems- [[ -4.94993155e-01  -8.55622175e-02  -2.48611806e-02 
3.33301232e-02] 
-3.13458547e-01 -7.52514984e-02  Á-7.48135856e-03  -3.50541410e-02 
-3.78450772e-01 -4.30110266e-02 -2.73248525e-02  -3.16127753e-01 
-9.66651163e-02 5.96631453e-01 -1.11181970e-01 7.08108827e-01 
-1.48606103e-02 4.20778007 e-02 8.58513789e-01 4.28827005e-02 
-5.34500615e-02 4.98695994e-01 4.12721285e-02  -1.51444295e-01 
-1.53015570e-02 1.73637176e-01 1.96700179e-01 -5.96048540e-02 
-4.69111042e-01  -7.14523528e-02 8.17335025e-02 6.74284466e-02 
-5.18848182e-01  Á-6.64352384e-02 -3.46135811e-02 1.62309665e-01 
-1.56328052e-02 6.08803417e-02 4.39273573e-01 4.45686018e-04 
-1.06449559e-01 5.79097298e-01  -8.90946777e-02  -5.80592096e-01]] 
xformedItems 行 和 列 数 (11，4) 
dataMat[user, :].A= [[00050300003]] 
nonzero (dataMat [user, :].A == 0)4 RA (array([0, 0, 0, 0, 0, 0, O, 0], dtype= 
int64), array([O, 1, 2, 4, 6, 7, 8, 9], dtype=int64)) 


item= 0 

the O and 3 similarity is : 0.049016 
the 0 and 5 similarity is : -0.084129 
the 0 and 10 similarity is : -0.033380 
item- 1 


the 1 and 3 similarity is : -0.126885 
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the 1 and 5 similarity is : -0.092534 
the 1 and 10 similarity is : 0.040066 
item= 2 

the 2 and 3 similarity is : -0.451573 


the 2 and 5 similarity is : 0.174746 
the 2 and 10 similarity is : 0.488365 


item= 4 

the 4 and 3 similarity is : -0.047760 
the 4 and 5 similarity is : 0.112117 
the 4 and 10 similarity is : -0.105378 
item= 6 


the 6 and 3 similarity is : 0.162263 
the 6 and 5 similarity is : 0.738223 
the 6 and 10 similarity is : 0.532098 
item= 7 


the 7 and 3 similarity is : 0.090762 


the 7 and 5 similarity is : -0.068085 
the 7 and 10 similarity is : -0.093655 
item= 8 


the 8 and 3 similarity is : 0.251291 


the 8 and 5 similarity is : -0.108902 
the 8 and 10 similarity is : -0.162994 
item= 9 

the 9 and 3 similarity is : -0.025692 


the 9 and 5 similarity is : 0.211222 
the 9 and 10 similarity is : -0.006709 


梳理 以 上 代码 的 计算 流程 , 可 以 划分 为 : 

COD 加 载 用 户 对 物品 的 评分 矩阵 ; 

(2) 矩阵 分 解 , 求 奇异 值 , 根据 奇异 值 的 能 量 占 比 确 定 降 维 至 k 的 数值 ; 

C3) 使 用 矩阵 分 解 对 物品 评分 矩阵 进行 降 维 ; 

(4) 使 用 降 维 后 的 物品 评分 矩阵 计算 物品 相似 度 ， 对 用 户 未 评分 过 的 物品 进行 预 


测 ; 
(5) 产生 前 n 个 评分 值 高 的 物品 , 返回 物品 编号 以 及 预测 评分 值 。 
SVD 在 计算 前 会 先 把 评分 矩阵 A 缺失 值 补 全 , 补 全 之 后 稀疏 矩阵 4 表示 成 稠密 矩 
BE, 然后 将 分 解 成 A' = UZ UT。 这 种 方法 有 两 个 缺点 : 第 一 , 补 全 成 稠密 矩阵 之 后 需要 
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耗费 巨大 的 存储 空间 , 在 实际 中 , 用 户 对 物品 的 行为 信息 何止 千 万 ,对 这 样 的 稠密 矩阵 
进行 存储 是 不 现实 的 ; 第 二 , SVD 的 计算 复杂 度 很 高 , 更 不 用 说 这 样 的 大 规模 稠密 矩阵 
了 。 所 以 关于 SVD 的 研究 很 多 都 是 在 小 数据 集 上 进行 的 。 隐 语义 模型 也 是 基于 矩阵 分 
解 的 , 但 是 和 SVD 不 同 , 它 是 把 原始 矩阵 分 解 成 两 个 矩阵 相 乘 而 不 是 三 个 。 


4=PQT (4-25) 


现在 的 问题 就 变 成 了 确定 P AQ, SE P 叫 作用 户 因子 矩阵 ，Q 叫 作物 品 因 
子 矩阵 。 通常 上 式 不 能 达到 精确 相等 的 程度 , 我 们 要 做 的 就 是 要 最 小 化 它们 之 间 的 差距 ， 
这 又 变 成 了 一 个 最 优化 问题 。 通 过 优化 如 下 损失 函数 来 找到 P AQ 中 合适 的 参数 ,其 
中 ri 为 用 户 i 对 物品 j 的 评分 。 


K 
min (ins - Y pingusll3 + Alpi? + vi) (4-26) 


i=1 
推荐 系统 中 用 户 和 物品 的 交互 数据 分 为 显 性 反馈 和 隐 性 反馈 数据 。 隐 式 模型 多 了 一 个 置 
信 参 数 ， 这 就 涉及 ALS 中 对 于 隐 式 反馈 模型 的 处 理 方式 一 一 有 的 文章 称 为 “加 权 的 正 
则 化 矩阵 分 解 ”， 它 的 损失 函数 如 下 : 


K 
min (sm — Ypaasll + Allpill? + oir) (4-27) 


i=1 
隐 式 反馈 模型 中 是 没有 评分 的 , 所 以 在 式 子 中 n5 并 不 是 具体 分 数 ,而 仅 为 1, 仅仅 表示 
户 和 物品 之 间 有 交互 , 而 不 表示 评分 高 低 或 者 喜好 程度 。 函数 中 还 有 一 个 ci 的 项 , 它 
用 来 表示 用 户 偏爱 某 个 商品 的 置信 程度 ， 比 如 交互 次 数 多 的 权重 就 会 增加 。 如 果 我 们 用 
dij 来 表示 交互 次 数 的 话 , 那么 就 可 以 把 置信 程度 表示 成 如 下 公式 : 


cij = 1 + adi; (4-28) 


这 里 , 协同 过 滤 就 成 功 转化 成 了 一 个 优化 问题 。 为 了 求 得 以 上 损失 函数 最 优 解 ， 最 常用 

的 是 ALS 算法 ， 即 交替 最 小 二 乘法 (Alternating Least Squares)。 算 法 的 基础 计算 流程 
是 : 

C1) 随机 初始 化 Q, 对 式 (4-26) 中 的 p; 求 偏 导 , 令 导数 为 0, 得 到 当前 最 优 解 pis 

pi = (Q* CQ + Ar)! Q' Cd, (4-29) 


(2) 固定 p. 对 式 (4-260 中 的 gj RRF 令 导 数 为 0, 得 到 当前 最 优 解 wj; 
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(3) 固定 q XA (4-26) 中 的 pi 求 偏 导 , 令 导 数 为 0, 得 到 当前 最 优 解 p;， 类 似 第 
一 步 ; 

(A) 循环 第 2 步 和 第 3 步 , 直到 达到 指定 的 迭代 次 数 或 收敛 。 对 于 大 数据 集 , 推荐 
读者 使 用 Spark 替代 Python 进行 ALS 的 计算 , 并 且 Spark 的 MLlib EF ALS 的 API 
可 以 调用 , 下 面 给 出 调用 的 方法 : 


import org.apache.spark.ml.evaluation.RegressionEvaluator 


import org.apache.spark.ml.recommendation.ALS 


case class Rating(userId: Int, movieId: Int, rating: Float, timestamp: Long) 


HHERURE TE, RALPH, PHAM Pid, Waid, FO, KA 
def parseRating(str: String): Rating = { 
val fields = str.split(",") 
assert (fields.size == 4) 
Rating (fields(0).toInt, fields(1).toInt, fields(2).toFloat , fields(3). 
toLong) 


val ratings = spark.read.textFile(".../als/movielens_ratings.txt") 
-map (parseRating ) 
.toDF () 


# 拆 分 训练 集 和 测试 集 # 


val Array(training, test) = ratings.randomSplit (Array (0.8, 0.2)) 


##rating: 由 用 户 - 物 品 矩阵 构成 的 训练 集 
##rank: 隐藏 因子 的 个 数 
##numIterations: ik AX dk 
##lambda: 正则 项 的 惩罚 系数 
##alpha: 置信 参数 
val als = new ALS() 

.setRank (100) 

.setMaxIter (50) 

.setRegParam (0.01) 

.setUserCol ("userId") 


.setItemCol ("movieId") 
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-setRatingCol("rating") 


val model - als.train(training) 


##rating: 由 用 户 -物品 矩阵 构成 的 训练 集 

##rank: 隐藏 因子 的 个 数 

##numIterations: RAA 

##lambda: 正则 项 的 惩罚 系数 

##alpha: 置信 参数 

val als = new ALS() 
.setRank (100) 
.setMaxIter (50) 
.setRegParam (0.01) 
.setUserCol ("userId") 
.setItemCol ("movieId") 
.setRatingCol("rating") 


val model2 = als.trainImplicit(training) 


HAZE MGR LEAT A 


val predictions = model.predict (test) 


## 获 得 物品 的 特征 


val item feature = model.productFeatures 


## 获 得 用 户 的 特征 


val user feature = model.userFeatures 


在 实际 应 用 中 , 由 于 待 分 解 的 矩阵 通常 是 非常 稀疏 的 , 与 SVD 相 比 , ALS 能 有 效 地 
解决 过 拟 合 问题 。 基 于 ALS 的 矩阵 分 解 的 协同 过 滤 算 法 的 可 扩展 性 也 优 于 SVD. 


4.2.5 ”基于 稀疏 自 编码 的 推荐 方法 


矩阵 分 解 技术 在 推荐 领域 的 应 用 比较 成 熟 , 但 是 通过 上 一 节 的 介绍 , 我 们 不 难 发 现 
矩阵 分 解 本 质 上 只 通过 一 次 分 解 来 对 原 和 矩阵 进行 逼近 , 特征 挖掘 的 层次 不 够 深入 。 另 多 
矩阵 分 解 也 没有 运用 到 物品 本 身 的 内 容 特 征 , 例如 书本 的 类 别 分 类 、 音乐 的 流派 分 类 等 。 
随 着 神经 网 络 技术 的 兴起 , 笔者 发 现 通过 多 层 感知 机 , 可 以 得 到 更 加 深度 的 特征 表示 , 并 
且 可 以 对 内 容 分 类 特征 加 以 应 用 。 首先, 我 们 介绍 一 下 稀疏 自 编码 神经 网 络 的 设计 思路 。 
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1. 基础 的 自 编码 结构 

最 简单 的 自 编码 结构 如 下 图 , 假设 我 们 有 一 个 训练 样本 集合 (100, 20,200...) ,其 
中 aO € n^ ， 即 每 一 个 样本 均 有 n 维特 征 。 构造 一 个 三 层 的 神经 网 络 , 输入 层 layerll 是 
Zz 中 ,输出 层 layerl3 为 y9， 中 间 隐 藏 层 layerl2 WAV, RRSP MAB, E 
如 a0 —yO ， 且 中 间 层 layerl2-h(D(%) 的 维度 远 低 于 layerll 和 layerl3, 这 样 就 得 到 了 第 
一 层 的 特征 压缩 。 


Layer L2 Layer L3 
(第 2 层 ) (第 3 层 ) 


Layer L1 
(第 1 层 ) 


FA 4.15 自 编 码 神经 网 络 模型 


简单 来 说 自 编码 神经 网 络 尝试 学 习 一 个 hwala) e z RR. RAMA, CRE 
近 一 个 恒 等 函 数 , 从 而 使 得 输出 2 接近 于 输入 z 。 当 我 们 为 自 编码 神经 网 络 加 入 某 些 限 
制 , 比如 限定 隐藏 神经 元 的 数量 , 我 们 就 可 以 从 输入 数据 中 发 现 一 些 有 趣 的 结构 。 

假设 某 个 自 编码 神经 网 络 的 输入 zx 是 100 维 的 数据 , 其 隐藏 层 Lo 我 们 限定 为 50 个 
隐藏 神经 元 , 输出 也 是 100 维 的 ye R., AFRA 50 个 隐藏 神经 元 , 我 们 迫使 自 编码 
神经 网 络 去 学 习 输 入 数据 的 压缩 表示 ， 也 就 是 说 ， 它 必须 从 50 维 的 隐藏 神经 元 激活 度 
HÆ a) e R59 中 重 构 出 100 维 的 输入 。 如 果 网 络 的 输入 数据 是 完全 随机 的 ， 比 如 每 一 
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个 输入 都 是 一 个 跟 其 他 特征 完全 无 关 的 独立 同 分 布 高 斯 随机 变量 , 那么 这 一 压缩 表示 将 
会 非常 难于 学 习 。 但 是 如 果 输 入 数据 中 隐 含 着 一 些 特定 的 结构 ， 比 如 某 些 输入 特征 是 彼 
此 相关 的 , 那么 这 一 算法 就 可 以 发 现 输入 数据 中 的 这 些 相关 性 。 

另外 当 隐 藏 神经 元 的 数量 较 大 (有 时 为 了 能 更 有 效 地 找 出 隐 含 在 输入 数据 内 部 的 结 
构 与 模式 ， 会 寻找 一 组 超 完 备 基 向 量 ， 其 维度 可 能 比 输入 的 维度 还 要 高 )， 也 可 以 通过 
给 自 编码 神经 网 络 施加 一 些 限制 ,使 得 满足 稀疏 性 要 求 ; 例如 如 果 神 经 元 的 输出 接近 于 
1 的 时 候 我 们 认为 它 被 激活 ， 而 输出 接近 于 0 的 时 候 认 为 它 被 抑制 ， 即 我 们 通常 说 的 
dropout, 那么 使 得 神经 元 大 部 分 的 时 间 都 是 被 抑制 的 限制 则 被 称 作 稀疏 性 限制 。 

2. 多 层 结构 

以 上 是 自 编码 最 基础 的 结构 , 我 们 可 以 进一步 用 深度 学 习 的 一 些 思想 , 学习 到 高 层 
抽象 特征 。 其 中 一 种 典型 的 方法 就 是 栈 式 自 编码 ， 它 采用 逐 层 贪 禁 训练 法 进行 训练 。 即 
先 利 用 原始 输入 来 训练 第 一 个 网 络 , 通过 使 输出 $ 接近 于 输入 , 我 们 可 以 得 到 第 一 个 网 
络 的 隐藏 层 AD 。 例 如 下 图 ,我 们 用 原始 输入 H 训练 第 一 个 自 编码 器 ， 它 能 够 学 习 
得 到 原始 输入 的 一 阶 特征 表示 AO) (如 图 4.16 所 示 )。 


Features I Output. 
(特征 层 ) (输出 层 ) 


Input 
(输入 层 ) 


图 4.16 稀疏 自 编码 第 一 个 网 络 


然后 再 用 这 些 一 阶 特征 KOO 作为 第 二 个 稀疏 自 编码 器 的 输入 , 使 用 它们 来 学 习 二 


74 | 推荐 系统 与 深度 学 习 


阶 特征 RQ, WE 4.17 所 示 。 


Input( 输 入 层 ) Features II Output 
(Features I) (特征 层 ) (输出 层 ) 


图 4.17 稀 朴 自 编码 第 二 个 网 络 


接 下 来 , 再 把 这 些 二 阶 特征 2O 作为 第 三 个 网 络 , 一 个 softmax 分 类 器 的 输入 , 训 
练 得 到 一 个 能 将 二 阶 特征 映射 到 数字 标签 的 模型 。 

如 图 4.19 所 示 , 最 终 , 你 可 以 将 这 三 个 网 络 结合 起 来 构建 一 个 包含 原始 输入 层 、 两 
个 隐藏 层 和 一 个 最 终 softmax 分 类 器 层 的 完整 的 栈 式 自 编码 网 络 。 

3. 稀疏 自 编 码 在 推荐 系统 中 的 应 用 

我 们 以 音乐 推荐 为 例 , 输入 层 的 每 个 样本 是 一 首 歌 曲 ， 向 量 特征 为 歌曲 被 用 户 收藏 
的 数据 , 输出 层 为 音乐 的 流派 分 类 结果 。 我 们 希望 训练 出 歌曲 的 特征 向 量 , 用 于 歌曲 相 
似 度 的 计算 , 具体 构造 自 编码 网 络 的 方法 如 下 : 

输入 层 , 每 首 歌 曲 的 输入 向 量 为 {uuu ,wi}, 其 中 wi 表示 用 户 i 是 否 收藏 过 
这 首 歌 , 当 收 藏 过 时 , 值 为 1; 未 收藏 时 , 值 是 缺失 的 , 暂且 计 为 0。 输 入 矩阵 为 (m 十 1) xm 
w (包含 一 个 截 距 项 ), m 为 用 户 数量 , n 为 歌曲 数量 。 

隐藏 层 1、 隐 藏 层 2， 强 制 指定 神经 元 的 数量 为 上 + 1 个 , 此 时 隐藏 层 其 实 就 是 歌 
的 低 维 特征 向 量 , 矩阵 为 (k +1) xn, 上 十 1 为 特征 维 数 (包含 一 个 截 距 项 1. 之 所 以 保 
留 , 是 为 了 可 以 重 构 出 输出 层 ), 其 中 n 为 歌曲 数量 。 

隐藏 层 到 输出 层 的 连接 。 一般 的 神经 网 络 中 , 往往 会 忽略 隐藏 层 到 输出 层 的 连接 权 
3€ WOOD. WOD, oD, 0?) 的 意义 , 只 是 将 其 作为 一 个 输出 预测 的 分 类 器 ; 但 在 自 编 
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码 网 络 中 , 连接 层 是 有 实际 意义 的 。 这 些 权重 作用 是 将 歌曲 特征 向 量 映射 到 用 户 是 否 听 
过 /喜欢 该 歌曲 , 其 实 就 是 用 户 的 低 维 特征 。 


—> Poa) 
> Pl) 


———» P(y-2|z) 


(+) 


Input( 输 入 层 ) Softmax( 分 类 层 ) 


(Features II) classifier 


图 4.18 稀 朴 自 编码 第 三 个 网 络 


—> P(y-0|:) 
——99 rml) 


—-—» P(y-2|z) 


G) 


Input( 输 入 层 ) Softmax( 分 类 层 ) 


(Features IT) classifier 


图 4.19 将 三 个 网 络 组 合 起 来 


输出 层 , 音乐 的 流派 分 类 结果 。 

通过 上 面 栈 式 自 编码 的 学 习 , 我 们 就 可 以 把 隐藏 层 nOUO 取出 来 , 它 就 是 歌曲 以 流 
派 分 类 为 目标 降 维 压缩 后 的 向 量 。 该 向 量 不 仅 使 用 到 了 用 户 的 群体 收藏 行为 , 也 运用 了 
歌曲 的 流派 特征 信息 , 可 以 表示 歌曲 更 多 的 特征 信息 。 类 似 上 一 节 中 的 SVD 的 方法 , 我 
们 就 可 以 通过 歌曲 的 特征 向 量 求 得 歌曲 的 相似 度 , 对 用 户 未 收藏 的 歌曲 进行 打分 。 

由 于 神经 网 络 计算 较为 烦琐 , 我 们 建议 读者 使 用 tensorFlow 完成 网 络 结构 的 设计 和 
训练 ,下面 我 们 为 读者 讲解 栈 式 自 编码 的 tensorFlow 实现 代码 : 
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OD 读 取 训 练 数 据 , 数据 中 第 一 列 为 songid, 即 歌 曲 id; 第 二 列 是 流派 id, 第 三 列 起 
是 用 户 是 否 收 藏 的 数据 。 设 定 模型 基本 参数 , 包括 栈 式 自 编码 各 层 神 经 元 的 个 数 。 模 型 


的 输入 层 对 应 用 户 数 , 输出 层 是 音乐 流派 数量 。 
from . future . import division, print function, absolute import 
import tensorflow as tf 


import 
import 


import 


numpy as np 


matplotlib.pyplot as plt 


pandas as pd 


from keras.utils import to categorical 


##i Ai) HIKE, W 40123,17,0,1,0,0,1 ##(songid,genreid,user1,user2,user3...) 


all_df 


all_df 
y_data 


= pd.read table("../SAE/tain.txt",header-None 


,encoding='utf8',sep=',',skiprows=1) 


= all_df.sample(frac = 1) 


= to_categorical (np.array(all_df['genre'])) 


all_df = all_df.drop(['genre','id']) 

x_data = np.array(all_df) 

ig 参数 

learning_rate = 0.01 ####3 5) # 

training epochs = 20 ## 训 练 的 周期 

batch_size = 256 ## 每 一 批 次 训练 的 大 小 
display_step = 1 ## 是 否 显 示 计 算 过 程 

## 神经 网 络 的 参数 

n_input = x data.shape[1] ## 输入 层 维度 
n_hidden_1 = 1024 HH 隐 层 1 的 神经 元 个 数 
n_hidden_2 = 512 ## 隐 层 2 神经 元 个 数 
n_hidden_3 = 128 #4 隐 层 3 神经 元 个 数 


n_output = y_data.shape [1] ## 音乐 流派 分 类 数 


(2) 初始 化 3 个 网 络 所 用 到 的 模型 参数 ， 以 第 一 个 自 编码 网 络 为 例 ( 见 图 4.16)， 


weights. encoder_h1 和 biases. encoder_h1 对 应 输入 层 到 隐藏 层 的 权 


偏 置 项 , weights. 


decoder hl 和 biases. decoder_h1 对 应 隐藏 层 到 输出 层 的 权重 及 偏 置 项 : 
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## tf Graph input 


X = tf.placeholder("float", [None, n input]) 


weights = { 
'encoder hi': tf.Variable(tf.random normal([n input, n_hidden_1])), 
'encoder h2': tf.Variable(tf.random normal([n hidden 1, n hidden 2])), 
'decoder hi': tf.Variable(tf.random normal([n hidden 1, n input])), 
'decoder h2': tf.Variable(tf.random normal([n hidden.2, n hidden.1])), 


'softmax w': tf.Variable(tf.random normal([n hidden 2, n output])), 


} 

biases = { 
'encoder.bi': tf.Variable(tf.random normal([n hidden. 1])), 
'encoder.b2': tf.Variable(tf.random normal([n hidden. 2])), 
'decoder bi': tf.Variable(tf.random normal([n input])), 
'decoder.b2': tf.Variable(tf.random normal([n. hidden. 1])), 
'softmax b': tf.Variable(tf.random normal([n output])), 

} 


(3) 第 一 个 自 编码 模型 的 网 络 图 定义 及 训练 。 其 中 x 为 网 络 输入 , hl_out 为 隐藏 层 ， 
用 sigmoid 或 者 relu 进行 激活 ，hl_out_drop 为 增加 dropout 的 结果 ,防止 模型 出 现 过 拟 
合 , XA 为 模型 输出 。lossl 为 损失 函数 的 定义 。 


Mibocoopooopdoooooeeeeoeeoeeer. Ist hidden layer xeeceecconoop 


X = tf.placeholder("float", [None, n input]) 


hi_out -tf.nn.sigmoid(tf.add(tf.matmul(X, weights['encoder_hi']), 
biases ['encoder_bi'])) 

keep_prob = tf.placeholder ("float") 

hi_out_drop = tf.nn.dropout (hi_out ,keep_prob) 


X_1 = tf.nn.sigmoid(tf.matmul(hi out drop, 
weights ['decoder hi'])*biases['decoder b1']) 


lossi = tf.reduce mean(tf.pow(X - X.1, 2)) 
train step 1 = tf.train.GradientDescentÜptimizer(learning rate).minimize( 
lossi) 
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sess=tf.Session() 
sess.run(tf.variables initializer ([weights['encoder hi'],biases['encoder _bl'] 
» weights ['decoder_hi'],biases['decoder_bi']])) 
## training 
for i in range(training epochs): 
batch x,batch.y =  mnist.train.next batch(batch. size) 
-,Cc7sess.run([train step.1,10ssi],feed dict-(X:batch x, keep .prob:1.0)) 
if i%5==0: 
print(c) 


(4) 第 二 个 自 编码 模型 的 网 络 图 定义 及 训练 。 网 络 结构 和 参数 与 第 3 步 类 似 。 


Mibeooeooopooooooooeoeonoeeeer 2nd hidden layer Hobbik 
h2.x = tf.placeholder("float", shape = [None, n_hidden_1]) 


h2_out = tf.nn.sigmoid(tf.matmul(h2 x,weights['encoder h2']) + biases[' 


encoder_b2']) 
h2_out_drop = tf.nn.dropout (h2_out ,keep_prob) 


h2_in_decode = tf.nn.sigmoid(tf.matmul(h2 out drop, weights['decoder_h2']) + 


biases ['decoder_b2']) 


loss2 = tf.reduce_mean(tf.pow( h2_x- h2_in_decode, 2)) 
train_step_2 = tf.train.GradientDescentOptimizer (learning _rate) .minimize ( 
loss2) 


for i in range (training. epochs): 
##batch_x = numpy.reshape(batch.x, [batch_size,sample_length] ) 
hi.out-[] 
batch x,batch.y =  mnist.train.next batch(batch size) 
temp-tf.nn.sigmoid(tf.add(tf.matmul(batch x, weights['encoder_hi']), 
biases['encoder bi1'])) 


hi_out.extend(sess.run(temp) ) 


-, c=sess.run([train_step_2,loss2] 
,feed dict-(h2 x:hi out,keep prob:1.0)) 
if i” 
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print(c) 
##h2_out = tf.nn.sigmoid(tf.matmul(hi.out 
,»weights ['decoder_h2']) + biases['decoder b2']) 


##get result of 2nd layer as well as the input of next layer 


(5) 第 三 个 网 络 比 以 上 两 个 网 络 更 为 简单 ， 主 要 作用 为 softmax 输出 。 这 里 的 损失 
函数 我 们 使 用 cross.entropy 交叉 烂 来 提高 迭代 效率 。 


Mibeioopooopooooooepoeoeopoeeeer. softmax layer x*eeeeecpecponoopk 
y- = tf.placeholder("float", shape = [None, n output]) 
soft x = tf.placeholder("float", shape = [None, n hidden.2]) 


y-out = tf.nn.softmax(tf.matmul(soft x, weights['softmax w']) + 


biases['softmax. b']) 


cross entropy = -tf.reduce_sum(y_ * tf.log(y.out)) 
train step.soft = tf.train.GradientDescentOptimizer ( 

learning_rate) .minimize (cross_entropy) 
correct_prediction = tf.equal(tf.argmax(y_out, 1), tf.argmax(y_, 1)) 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float")) 


sess.run(tf.variables initializer([weights['softmax w'], 
biases['softmax b']])) 


for i in range(training epochs): 
h2.out-[] 
batch x,batch.y =  mnist.train.next batch(batch size) 
for i in range(batch_size): 
temp=tf.nn.sigmoid(tf.add(tf.matmul (batch_x[i].reshape([1,784]), 
weights ['encoder_hi']), 


biases ['encoder_bi'])) 


temp-tf.nn.sigmoid(tf.add(tf.matmul(temp, weights['encoder h2']), 
biases['encoder b2'])) 


h2_out .extend(sess.run(temp) ) 


sess.run(train_step_soft ,feed_dict={soft_x:h2_out, y_:batch_y, 
keep_prob:1.0}) 
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if i%5 == 0: 
print(sess.run(accuracy, feed dict-(soft x:h2 out, y :batch y, keep. 


prob:1.0})) 


4.3 ”基于 社交 网 络 的 推荐 算法 


近年 来 , 互联 网 不 断 发 展 与 普及 , 尤其 是 手持 设备 的 智能 化 与 移动 互联 网 的 普及 化 ， 
使 得 用 户 数 量 增加 ,在 线 时 间 加 长 。 在 这 样 的 互联 网 浪潮 中 , 参与 的 用 户 在 不 断 地 将 线 
下 社交 人 脉 往 线 上 迁移 ， 由 此 形成 了 社交 网 络 。 在 社交 网 络 中 ,志趣 相投 的 用 户 聚 集 到 
了 一 起 , 并 且 由 于 用 户 可 以 选择 关注 自己 感 兴趣 的 内 容 , 使 得 社交 网 络 拥 有 高 访问 量 和 
高 聚集 度 的 特点 。 从 各 大 电 商 与 新 浪 微 博 的 合作 推广 , 到 Facebook 个 性 化 广告 系统 的 繁 
荣 发 展 , 都 是 社交 网 络 商 业 化 进程 的 体现 。 而 其 中 对 用 户 兴 趣 爱 好 进行 挖 气 分 析 ， 并 向 
用 户 推荐 其 最 可 能 感 兴趣 和 接受 的 商品 或 广告 的 核心 , 便 是 基于 社交 网 络 的 推荐 系统 。 

美国 著名 的 第 三 方 调查 机 构 尼 尔 森 调 查 了 影响 用 户 相信 某 个 推荐 的 因素 , 调查 结果 
显示 , 9 成 的 用 户 相信 朋友 对 他 们 的 推荐 , 7 成 的 用 户 相信 网 上 其 他 用 户 对 广告 商品 的 评 
论 。 从 该 调查 可 以 看 到 ,好 友 的 推荐 对 于 增加 用 户 对 推荐 结果 的 信任 度 非常 重要 。 在 社 
交 网 站 中 , 可 以 通过 好 友 给 自己 过 滤 信 息 , 只 关注 与 阅读 和 自己 有 共同 的 兴趣 好 友 分 享 
而 来 的 信息 ， 从 而 避免 了 很 多 无 关 的 信息 ,自然 减轻 了 信息 过 载 问题 。 

在 社交 网 站 方面 ， 国 外 以 Facebook 和 Twitter 为 代表 ， 国 内 社交 网 站 ， 以 新 浪 微 
博 、QQ 空间 等 为 代表 ; 这 些 社 交 网 站 形成 了 两 类 社交 网 络 结构 。 一 种 是 好 友 一 般 都 是 
自己 在 现实 社会 中 认识 的 人 ， 比 如 同事 、 同 学 、 亲 威 等 ， 并 且 这 种 好 友 关 系 是 需要 双方 
确认 的 , 如 Facebook, QQ 空间 , 这 种 社交 网 络 称 为 社交 图 谱 。 另 一 种 是 好 友 往 往 都 是 现 
实 中 互 不 相识 的 , 只 是 出 于 对 对 方言 论 的 兴趣 而 建立 好 友 关 系 , 好 友 关 系 也 是 单 向 的 关 
TERA, 如 Twitter、 新 浪 微 博 , 这 种 社交 网 络 称 为 兴趣 图 谱 。 同 时 必须 指出 , 任何 一 个 
社会 化 网 站 都 不 是 单纯 的 社交 图 谱 或 兴趣 图 谱 。 在 QQ 空间 中 大 多 数 用 户 联系 基于 社交 
图 谱 , 而 在 微 博 上 大 多 数 用 户 联系 基于 兴趣 图 谱 。 在 微 博 中 ,也 会 关注 现实 中 的 亲朋 好 
友 , 在 QQ 中 也 会 和 部 分 好 友 有 共同 兴趣 。 在 社交 网 络 的 背景 下 ,推荐 系统 不 单单 需要 
关注 用 户 与 物品 之 间 的 关系 , 还 要 关注 用 户 之 间 的 关系 ,本 章 就 会 介绍 几 种 在 基于 社交 
网 络 推 荐 时 可 能 会 用 到 的 方法 。 
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4.3.1 ”基于 用 户 的 推荐 在 社交 网 络 中 的 应 用 


在 社交 网 络 中 , 需要 表示 用 户 之 间 的 联系 , 可 以 用 图 GV, E, W) 定义 一 个 社交 网 络 ， 
如 图 4.20 所 示 , 其 中 V 是 顶点 集合 , 每 个 顶点 代表 一 个 用 户 , 是 边 集合 , WRH Va 
和 V, 有 社交 网 络 关系 , 那么 就 有 一 条 边 eVa, Vo) 连接 这 两 个 用 户 , W(V, Vo) 用 来 定义 
边 的 权重 。 前面 提 到 基于 社交 图 谱 或 兴趣 图 谱 的 两 种 社交 网 络 , 基于 社交 图 谱 的 朋友 关 
系 是 需要 双向 确认 的 ， 因 而 可 以 用 无 向 边 连 接 有 社交 网 络 关系 的 用 户 ; 基于 兴趣 图 谱 的 
朋友 关系 是 单 向 的 , 可 以 用 有 向 边 代 表 这 种 社交 网 络 上 的 用 户 关系 。 


图 4.20 社交 网 络 关系 图 示例 


一 般 在 图 中 , 对 于 用 户 顶 点 u, 定义 out u) 为 顶点 u 指向 的 顶点 集合 (也 就 是 用 户 
u 关注 的 用 户 集合 ),， 定义 in GO 为 指向 顶点 u 的 顶点 集合 (也 就 是 关注 用 户 u 的 用 户 
集合 )。 显 然 在 无 向 社交 网 络 中 out Cu) =in Cu)» 一 般 来 说 , 有 如 下 3 种 不 同 的 社交 网 络 
数据 。 

双向 确认 的 社交 网 络 数 据 : 在 以 Facebook 和 人 人 网 为 代表 的 社交 网 络 中 , 用 户 4 和 
B 之 间 形 成 好 友 关系 需要 通过 双方 的 确认 。 因 此 , 这 种 社交 网 络 一 般 可 以 通过 无 向 图 表 
示 。 


单 向 关注 的 社交 网 络 数据 : 在 以 Twitter 和 新 浪 微 博 为 代表 的 社交 网 络 中 ,用 户 4 
可 以 关注 用 户 B 而 不 需要 得 到 用 户 B 的 允许 , 因此 这 种 社交 网 络 中 的 用 户 关 系 是 单 向 
的 , 可 以 通过 有 向 图 表示 。 

基于 社区 的 社交 网 络 数据 : 还 有 一 种 社交 网 络 数据 , 用 户 之 间 并 没有 明确 的 关系 , 但 
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是 这 种 数据 包含 了 用 户 属于 不 同 社区 的 数据 。 比 如 知 乎 中 的 “话题 ”, 用 户 可 能 共同 关注 
了 某 个 话题 ,他 们 兴趣 相似 , 但 是 却 没有 真正 建立 好 友 关 系 。 

有 了 用 户 之 间 的 网 络 关 系 , 我 们 需要 进一步 把 用 户 与 物品 之 间 的 关系 融合 进来 。 如 
4.21 所 示 , 图 中 用 户 B 对 物品 il 和 i4 产生 过 关联 (购买 、 收 藏 等 ), 且 被 用 户 4 和 
HP BRE, 和 用 户 FF 相互 关注 。 


4.21 融入 用 户 关系 和 物品 关系 


RNE (4.2.2) 节 中 介绍 了 基于 用 户 的 协同 推荐 算法 ， 主 要 思路 是 使 用 用 户 与 物品 
之 间 的 关系 计算 用 户 相 似 度 。 那么 有 了 用 户 关系 数据 之 后 , 我 们 同样 可 以 使 用 用 户 好 友 
或 关注 的 数据 计算 用 户 之 间 的 相似 度 , 主要 有 以 下 几 种 方法 : 

1) 对 于 用 户 u 和 用 户 v. 可 以 使 用 共同 好 友 比 例 计算 他 们 的 相似 度 : 

lout(u) NN out(v)| 

v/lout(u)| - lout(v)| 
公式 (430) 与 基于 用 户 的 协同 计算 公式 (4-6) 类 似 , 所 不 同 的 是 上 式 中 out(w) 的 定义 是 
在 社交 网 络 图 中 用 户 u 指向 的 其 他 好 友 的 集合 。out(w) Nouto) 定义 用 户 u MAP v 共 
同 指向 好 友 的 数量 。 该 相似 度 的 计算 与 (4.2.2) 节 中 计算 用 户 相 似 度 的 方法 类 似 , 但 是 在 
实际 生产 环境 中 , 用 户 的 量 级 往往 比较 大 , 且 数据 库 中 存储 的 一 般 是 好 友 关系 对 这 样 的 
二 元 数据 ， 因 此 我 们 建议 读者 使 用 Spark 中 Graphx 模块 去 计算 共同 好 友 数 量 ， 相 较 于 
Python 可 以 提升 3 倍 以 上 的 计算 效率 。 


ui(u,v) = (4-30) 
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##refers to http://blog.csdn.net/u010990043/article/details/79114807 


import org.apache.spark.graphx.(GraphLoader, VertexRDD) 
import org.apache.spark.{SparkConf, SparkContext} 


object GraphRale { 
/** 
* 数据 列表 的 笛 卡 尔 乘积 : 1,2,3,4=>(1,2), (1,3), (1,4), (2,3), (2,4), (3,4) 
*@ param input 
*@ return 
*/ 
def ciculate (input :List [Long]) :Set [String]={ 
var result = Set [String] () 
input . foreach (x=>{ 
input . foreach (y=>{ 
if (x<y){ 
result += s"${x}|l${y}" 
}else if(x»y)t 
result += s"$(y)l$(x)" 
} 
2) 
» 
return result; 
F 
def twoDegree ()={ 
val conf = new SparkConf ().setMaster ("common friends").setAppName ("graph" 
) 
val sc = new SparkContext(conf) 
## 输 入 数据 为 好 友 关 系 对 ， 每 一 行为 2 个 id 
val graph = GraphLoader.edgelistFile(sc,"./newtwork/grap.txt") 
IEEE Xo (a,b), (a,c), (a,f) KKM HM Aa->list (b,c, f) 
val relate: VertexRDD[List[Long]] = graph. aggregateMessages [List [Long]]( 
triplet=>{ 
triplet .sendToDst (List (triplet .srcId)) 
}, 
(a,b)=>(at+b) 
). filter (x=>x._2.length>1) 
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##a->list(b,c,f) 中 bcd 用 户 均 有 共同 好 友 a 
val re = relate.flatMap (x=>{ 

for{temp <- ciculate(x._2)}yield (temp,1) 
J).reduceByKey (_+_) 


re.foreach(println(.)) 
Y 
def main(args: Array[String]): Unit - ( 
twoDegree () 
} 
于 


2) 使 用 共同 被 关注 的 用 户 数量 计算 用 户 之 间 相 似 度 ， 只 要 将 公式 (4-300. 中 out(u) 
修改 为 in(w): 
lint) vinto) T 
lin(u)| - [in(v)| 
in(u) 是 指 用 户 u 被 其 他 用 户 指向 的 集合 。 在 无 向 社交 网 络 图 中 , out(u) 和 inu) 是 
相同 的 集合 。 但 在 微 博 这 种 有 向 社交 网 络 中 , 这 两 个 集合 的 含义 就 不 同 了 。 一般 来 说 公 
式 (4-31) 适用 于 计算 大 V 之 间 的 相似 度 ， 因 为 大 V 往往 被 关注 的 人 数 比较 多 ; 公式 
(4-30) 适用 于 计算 普通 用 户 的 兴趣 相似 度 , 因为 普通 用 户 往往 关注 行为 比较 丰富 。 计 算 
代码 与 方法 1) 类 似 。 
3) 除 此 之 外 , 我 们 还 可 以 定义 第 三 种 有 向 的 相似 度 : 这 个 相似 度 的 含义 是 用 户 关 
注 的 用 户 中 , 有 多 大 比例 也 关注 了 用 户 v: 
lout(u) Min(v) d 


lout(u)| 


wo(u,v) = 


ws(u,v) = 


但 是 , 这 个 相似 度 有 一 个 缺点 , 就 是 在 该 相似 度 的 定义 下 所 有 人 都 和 大 V 有 很 大 的 
相似 度 ， 这 是 因为 公式 (4-32) 中 的 分 母 并 没有 考虑 in(v) 的 大 小 , 所 以 我 们 把 in(v) 加 
入 到 公式 (4-32) 的 分 母 , 来 降低 大 V 与 其 他 用 户 的 相似 度 。 

lout(u) N in(v)| 
Vlout(w| - [in(v)] 

有 了 基于 社交 网 络 的 用 户 相似 度数 据 ， 我 们 结合 3.2.2 节 中 介绍 的 基于 用 户 协 同 中 

的 相似 度 共 同 计算 出 新 的 相似 度 分 数 : 


wa(u,v) — 


(4-33) 


w' (u,v) = wpaseNet (U,V) + (1 — 0)wtaseu ser (u, v) (4-34) 
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其 中 wasenalu v) 就 是 我 们 上 面 通过 社交 网 络 关系 计算 的 用 户 相似 度 分 数 ， 
wbaseUser (u, V) 是 4.2.2 节 中 介绍 的 基于 用 户 协同 的 相似 度 。 然 后 再 针对 用 户 v 挑选 k 
个 最 相似 的 用 户 ， 把 他 们 购买 过 的 物品 中 , u 未 购买 过 的 物品 推荐 给 用 户 u 即 可 。 如 果 
有 评分 数据 , 可 以 针对 这 些 物品 进一步 打分 , 打分 的 原理 与 基于 用 户 的 协同 推荐 原理 类 
似 , 公式 如 下 : 


Pui = NT w' (u, v)scorevu (4-35) 
N(i) 1) S(u,k) 


4.3.2 node2vec 技术 在 社交 网 络 推荐 中 的 应 用 


在 上 一 节 中 我 们 提出 了 基于 用 户 社交 网 络 计算 用 户 相似 度 的 方法 。 但 对 于 新 浪 微 
博 、QQ、 微 信 这 样 大 规模 的 社交 关系 ,离线 计算 好 用 户 的 相似 度 并 存储 下 来 供 线 上 推 
荐 系统 使 用 ， 显然 不 合理 的 。 那 能 否 用 一 个 坐标 表示 来 描述 用 户 在 社交 网 络 中 的 位 置 ? 
这 样 只 需 提 前 计算 好 用 户 坐 标 , 线 上 计算 用 户 之 间 的 相似 度 时 ， 只 要 计算 坐标 的 距离 或 
者 余弦 相似 度 即 可 。 我 们 参考 《node2vec: Scalable Feature Learning for Networks), 可 以 
通过 network embedding 的 方法 来 计算 用 户 的 坐标 。network embedding 就 是 一 种 图 特征 
的 表示 学 习 方 法 , 它 从 输入 的 网 络 图 中 , 学 习 到 节点 的 表达 。 

node2vec 的 整体 思路 分 为 两 个 步骤 ， 第 一 个 步骤 为 random walk (随机 游 走 )， 即 通 
过 一 定 规 则 随机 抽取 一 些 点 的 序列 。 第 二 个 步骤 是 将 点 的 序列 输入 至 Word2Vec 模型 从 
而 得 到 每 个 点 的 embedding 向 量 。 下 面 我 们 将 分 别 介绍 这 两 个 步骤 的 计算 方法 。 

1. random walk 

random walk 的 基本 流程 , 给 定 一 张 图 G 和 一 个 起 始 节点 S, 标记 起 始 节 点 位 置 为 
当前 位 置 ， 随 机 选择 当前 位 置 节点 的 一 个 邻居 并 将 当前 位 置 移 动 至 被 选择 的 邻居 位 置 ， 
重复 以 上 步骤 n 次， 最 终 会 得 到 从 初始 节点 到 结束 节点 的 一 条 长 度 为 n 的 “点 序列 ”， 
此 条 “点 序列 ” 即 称 为 在 图 G 上 的 一 次 random walk. 

假设 我 们 的 起 始 节点 为 4, 随机 游 走 步 数 为 4。 首 先 从 4 开始 , 有 B. E 两 个 节点 
可 游 走 到 , 我 们 随机 选择 B; 再 从 B 开始 , 有 A.E.F 三 个 备 选 下 一 节点 , 随机 选择 
节点 为 F; 再 从 五 开始 , T B.C. D. EASA, 我 们 随机 取 C; 再 从 C 开始 , 游 
走 到 H, 这 样 我 们 就 获取 了 一 条 random walk 路 径 : A 一 B 一 FF 一 CC 一 H。 


(D {node2vec: Scalable Feature Learning for Networks) Adita Grover, Jure Leskoves. 
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图 4.22 社交 网 络 关系 图 示例 


由 上 面 的 示例 中 可 以 看 出 ，random walk 算法 主要 分 为 两 步 : (1) 选择 起 始 节 点 
(2) 选择 下 一 跳 节点 。 其 中 起 始 节 点 的 选择 存在 两 种 常见 做 法 ， 其 一 ， 按 照 一 定 规则 随 
机 从 图 中 抽取 一 定数 量 的 节点 ; 其 二 ， 以 图 中 所 有 节点 作为 起 始 节点 。 一 般 来 说 我 们 选 
FER 2 种 方法 , 以 使 所 有 节点 都 会 被 选取 到 。 

那么 下 面 我 们 就 要 解决 如 何 选择 下 一 跳 节 点 的 问题 。 最 简单 的 方法 是 按照 边 的 权重 
随机 选择 ; 但 是 在 实际 应 用 中 , 我 们 希望 能 控制 广度 优先 还 是 深度 优先 ， 从 而 影响 ran- 
dom walk 能 够 游 走 到 的 范围 。 一 般 来 说 , 深度 优先 的 方法 , 发 现 能 力 更 强 ; 广度 优先 的 
方法 , 社区 内 的 节点 更 容易 出 现在 一 个 路 径 里 。 斯坦福 大 学 计算 机 教授 Jure Leskovec 给 
出 了 一 种 可 以 控制 广度 优先 或 者 深度 优先 的 方法 。 


图 4.23 社交 网 络 关 系 图 示例 


以 图 4.23 为 例 , 我 们 假设 第 一 步 是 从 t 随机 游 走 到 v, 这 时 候 我 们 要 确定 下 一 步 的 
邻接 节点 。 在 本 例 的 随机 游 走 中 ,作者 定义 了 p 和 4 两 个 参数 变量 来 调节 游 走 ,首先 计 
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算 其 邻居 节点 与 上 一 节点 t 的 距离 d. 根据 公式 (4-36) 得 到 a 。 


1/p,d=0 
a= | 1,d=1 (4-36) 


1/q,d=2 


当下 一 节点 选择 为 t 即 往 回 走 的 时 候 , d = 0; 当下 一 节点 为 ai 时 , v、t 和 zl 构成 
三 角形 , d= 1; 当下 一 节点 为 zz 或 者 za 时 , d = 2。 这 时 根据 a 的 值 确定 下 一 节点 的 选 
择 概 率 。 如 果 p 大 于 max(g, 1), 则 产生 的 序列 与 深度 优先 搜索 类 似 , 刚刚 被 访问 过 的 节 
点 不 太 可 能 被 重复 访问 ; 反之 ,如果 p 小 于 min(g, 1), 则 产生 的 序列 与 宽度 优先 搜索 类 
似 , 倾向 于 周边 节点 。 

至 此 , 我 们 就 可 以 通过 random walk 生成 点 的 序列 样本 。 一 般 来 说 , 我 们 会 从 每 个 
点 开始 游 走 5~10 K, 步 长 则 根据 点 的 数量 N 游 走 VN 步 。 

2. Word2Vec 

在 上 一 步 中 ， 我 们 已 经 获得 了 点 的 序列 样本 ， 那 么 下 一 步 我 们 需要 解决 的 问题 是 ， 
如 何 根据 点 序列 生成 每 个 点 的 特征 向 量 ， 即 我 们 前 面 提 到 的 “坐标 ”。 我 们 先 抛 开 这 个 
问题 ， 聚 焦 在 Word2Vec 算法 的 意义 上 ， 下 面 作者 会 用 一 定 的 篇 幅 介绍 该 算法 。 理 解 该 
算法 也 有 益 于 对 下 一 章 中 特征 构造 的 理解 。 事 实 上 Word2Vec 已 成 为 现在 主流 的 特征 构 
造 方法 。Word2Vec 是 从 大 量 文本 语 料 中 以 无 监督 的 方式 学 习 语义 知识 的 一 种 模型 , 它 被 
大 量 地 运用 在 自然 语言 处 理 NLP) 中 。Word2Vec 的 核心 目标 是 通过 一 个 嵌入 空间 将 每 
个 词 映射 到 一 个 空间 向 量 上 , 并 且 使 得 语义 上 相似 的 单词 在 该 空间 内 距离 很 近 。 举 个 例 
子 “ 国 王 ” 这 个 单词 和 “王子 ”属于 语义 上 很 相近 的 词 ， 而 “国王 ”和 “公主 ” 则 不 是 那 
么 相近 ,“ 国 王 ” 和 “小 丑 ” 则 就 差 得 更 远 了 。 通过 Word2Vec 的 学 习 , 可 以 得 到 每 个 词 的 
数值 向 量 , 例如 (0.23,0.45,0.01 …)， 我 们 希望 “国王 ”和 “王子 ”的 数值 向 量 比较 接近 ， 
而 “国王 ”和 “小 丑 ” 的 数值 向 量 相差 较 远 。 数值 向 量化 的 操作 也 能 帮助 我 们 得 到 一 些 有 
趣 的 结论 , 例如 “国王 ”-“ 王 子 ”=“ 女 王 ”- “公主 ”。 

Word2Vec 模型 中 ,主要 有 Skip-Gram 和 CBOW 两 种 模型 , 我 们 先 介 绍 Skip-Gram 
模型 。 

Skip-Gram 模型 实际 上 分 为 两 个 部 分 , 第 一 部 分 为 建立 模型 ,第 二 部 分 是 通过 模型 
获取 嵌入 词 向 量 。 整 个 建 模 过 程 实际 上 与 本 书 3.2.5 节 中 自 编码 器 的 思想 很 相似 ， 即 先 
基于 训练 数据 构建 一 个 神经 网 络 ， 当 这 个 模型 训练 好 以 后 , 我 们 并 不 会 用 这 个 训练 好 的 
模型 处 理 新 的 任务 , 我 们 真正 需要 的 是 这 个 模型 通过 训练 数据 所 学 得 的 参数 , 例如 隐 层 
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的 权重 矩阵 ,而 它们 正 是 我 们 希望 得 到 的 “word vectors”. 我 们 在 上 面 提 到 , 训练 模型 的 
真正 目的 是 获得 模型 基于 训练 数据 学 得 的 隐 层 权重 。 为 了 得 到 这 些 权 重 , 我 们 首先 要 构 
建 一 个 完整 的 神经 网 络 作为 我 们 的 训练 依据 。 


INPUT PROJECTION OUTPUT INPUT PROJECTION OUTPUT 
(输入 层 ) (映射 层 ) (输出 层 ) (输入 层 ) (RHE) (输出 层 ) 


»e-»[ | [] w(t-2) 


w(t—1) Li SUM [] w(t—1) 


w(t+1) [] w(t+1) 
w(t+2) [] [] w(t+2) 


CBOW Skip-Gram 


图 4.24 CBOW 和 Skip-Gram 示例 


通过 一 个 实例 , 来 帮助 我 们 对 其 进行 理解 。 假 如 有 一 个 句子 “When the whole world 
is about to rain, let's make it clear in our heart together”。 首先 我 们 选取 句子 中 间 的 一 个 词 
作为 我 们 的 输入 词 , 例如 , 我 们 选取 “world” 作 为 (input word)。 有 了 input word 以 后 ， 
我 们 再 定义 一 个 叫做 skipwindow 的 参数 , 它 代表 着 我 们 从 当前 input word 的 两 侧 获取 到 
的 词 。 如 果 我 们 设置 skipwindow=2, 那么 我 们 可 以 得 到 一 个 训练 样本 (world) — > (the, 
whole, is, about). (Hh, 我们 还 可 以 得 到 (clear) — > (make, it, in, our) 等 训练 样本 。 
下 面 我 们 希望 把 这 些 训练 样本 输入 到 图 4.25 中 Skip-Gram 模型 中 。 我 们 如 何 来 把 这 些 
训练 样本 输入 模型 呢 ? 首先 , 我 们 都 知道 神经 网 络 只 能 接受 数值 输入 , 我 们 不 可 能 把 一 
个 单词 字符 串 作 为 输入 ,因此 我 们 得 想 个 办 法 来 表示 这 些 单 词 。 最 常用 的 办 法 就 是 基于 
训练 文档 来 构建 我 们 自己 的 词汇 表 (vocabulary), 再 对 单词 进行 one-hot 编码 。 假 设 从 我 
们 的 训练 文档 中 抽取 出 10000 个 唯一 不 重复 的 单词 组 成 词汇 表 。 我 们 对 这 10000 个 单词 
进行 one-hot 编码 , 得 到 的 每 个 单词 都 是 一 个 10000 维 的 向 量 , 向 量 每 个 维度 的 值 只 有 0 
或 者 1。 假 如 单词 “world” 在 词汇 表 中 的 出 现 位 置 为 第 3 个 , 那么 world 的 向 量 就 是 一 
个 第 三 维度 取 值 为 1， 其 他 维 都 为 0 的 10000 维 的 向 量 (world =[0, 0, 1, 0, ---, 0]) 。 观 
Z Skip-Gram 模型 的 输入 如 果 为 一 个 10000 维 的 向 量 , 那么 输出 也 是 一 个 10000 维 Ci] 
汇 表 的 大 小 ) 的 向 量 , CAET 10000 个 概率 , 每 一 个 概率 代表 着 当前 词 是 输入 样本 中 
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output word 的 概率 大 小 。 4.25 是 神经 网 络 的 结构 : 我 们 基于 成 对 的 单词 来 对 神经 网 
络 进行 训练 , 训练 样本 是 (input word, output word) 这 样 的 单词 对 , 例如 上 面 提 取出 的 
样本 (world) — > (the, whole, is, about)。 且 input word 和 output word 都 是 one-hot 编 
码 的 向 量 。 最 终 模 型 的 输出 是 一 个 概率 分 布 。 


g (输出 层 ) 
B Output layer 


|o Vij 


(输入 层 ) 
Input layer (隐藏 层 ) 
Hidden layer 


o 
Cx V-dim 


图 4.25 Skip-Gram 网 络 结构 


说 完 单 词 的 编码 和 训练 样本 的 选取 , 我 们 来 看 下 神经 网 络 结构 的 隐藏 层 。 如 果 我 们 
现在 想 用 300 个 特征 来 表示 一 个 单词 (每 个 单词 可 以 被 表示 为 300 维 的 向 量 )。 那 么 隐 
藏 层 的 权重 矩阵 应 该 为 10000 行 , 300 列 (隐藏 层 有 300 个 节点 )。 这 300 列 的 向 量 就 对 
应 了 我 们 输入 单词 的 词 向 量 。 

Google 在 最 新 发 布 的 基于 Google News 数据 集训 练 的 模型 中 使 用 的 就 是 300 个 特 
征 的 词 向 量 。 词 向 量 的 维度 是 一 个 可 以 调节 的 超 参数 (在 Python 的 gensim 包 中 封装 的 
Word2Vec 接口 默认 的 词 向 量 大 小 为 100, windowsize 为 5)。 

那么 为 什么 “国王 ”和 “王子 ”的 数值 向 量 比 较 接近 , 而 “国王 ”和 “小 丑 ” 的 数值 向 
量 相差 较 远 呢 ? 正如 上 面 提 到 的 Word2Vec 模型 的 输出 是 一 个 概率 分 布 ， 基 于 大 量 的 语 
料 数 据 , “国王 ”和 “王子 ”前 后 的 词 出 现 的 概率 比较 接近 ,所 以 训练 得 到 的 词 向 量 也 会 
比较 接近 , 而 “国王 ”和 “人 小丑” 的 前 后 文 往往 不 一 样 , 所 以 得 到 的 词 向 量 也 会 不 一 样 。 
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Word2Vec 代码 库 中 关于 Skip-Gram 训练 的 代码 ， 其 实 就 是 神经 元 网 路 的 标准 反 向 
传播 算法 。 项 目的 地 址 为 : https://github.com/tmikolov/word2vec。 读 者 可 以 把 自己 的 语 
料 放 入 该 模型 进行 训练 。 下 面 给 出 Skip-Gram 的 核心 训练 代码 : 


{ //train skip-gram 
for (a = b; a < window * 2 + 1 - b; a++) if (a != window) { 

C = sentence position - window + a; 

if (c « 0) continue; 

if (c >= sentence length) continue; 

last word = sen[c]; 

if (1ast word == -1) continue; 

11 = last_word * layeri.size; 

for (c = 0; c < layeri.size; c++) neule[c] = 0; 

// HIERARCHICAL SOFTMAX 

if (hs) for (d = 0; d < vocab[word].codelen; d++) { 
f = 0; 
12 = vocab[word].point[d] * layeri.size; 
// Propagate hidden -» output 
for (c = 0; c < layeri_size; c++) f += synO[c + 11] * syni(c + 12]; 
if (f <= -MAX_EXP) continue; 
else if (f »- MAX.EXP) continue; 
else f = expTable[(int)((f + MAX EXP) * (EXP. TABLE.SIZE / MAX.EXP / 

2))); 

// 'g' is the gradient multiplied by the learning rate 
g = (1 - vocab[word].code[d] - f) * alpha; 
// Propagate errors output -> hidden 
for (c = 0; c < layeri_size; c++) neule[c] += g * synifc + 12]; 
// Learn weights hidden -> output 


for (c = 0; c < layeri_size; c++) syni[c + 12] += g * synO[c + 11]; 


与 Skip-Gram 对 应 的 是 CBOW BE, Skip-Gram 的 输入 是 中 心 词 , 输出 是 上 下 文 ， 
而 CBOW 恰恰 相反 , 是 通过 上 下 文 来 预测 中 心 词 , 并 且 抛 弃 了 词 序 信息 : 

输入 层 : n 个 节点 (one-hot 向 量 的 维度 )， 上 下文 共 2xskip window 个 词 的 词 向 量 的 
平均 值 , 即 上 下 文 2xskip window 个 词 的 one-hot-representation; 

输入 层 到 输出 层 的 连接 边 : 输出 词 矩 阵 Uvjxn o 

输出 层 : |V| 个 节点 。 第 i 个 节点 代表 中 心 词 是 词 wi 的 概率 。 
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图 4.26 CBOW 网 络 结构 


CBOW 模型 把 上 下 文 的 2 个 词 向 量 求 平均 值 “ 炊 ”成 一 个 向 量 然后 作为 输入 , 进 
而 预测 中 心 词 ; 下 面 给 出 CBOW 的 核心 训练 代码 : 


if (cw) { 

for (c = 0; c < layeri_size; c++) neui[c] /= cw; 

if (hs) for (d = 0; d « vocab[word].codelen; d**) { 
f =» 0; 
12 = vocab [word] .point [d] * layeri_size; 
// Propagate hidden -> output 
for (c = 0; c < layeri_size; c++) f += neui[c] * syni[c + 12]; 
if (f <= -MAX_EXP) continue; 
else if (f »- MAX EXP) continue; 
else f - expTable[(int)((f * MAX EXP) * (EXP TABLE.SIZE / MAX.EXP / 

2))1; 

// 'g' is the gradient multiplied by the learning rate 
g = (1 - vocab[word].code[d] - f) * alpha; 
// Propagate errors output -> hidden 


for (c = 0; c < layeri_size; c++) neuie[c] += g * syni[c + 12]; 
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Y 


// Learn weights hidden -> output 


for (c = 0; c < layeri.size; c++) syni[c + 12] += g * neui[c]; 


// NEGATIVE SAMPLING 


if (negative > 0) for (d = 0; d < negative + 1; d**) { 


if (d == 0) ( 


target - word; 


label = 1; 
) else { 
next random = next random * (unsigned long long) 25214903917 + 11; 
target = table[(next random >> 16) % table_size]; 
if (target == 0) target = next_random % (vocab_size - 1) + 1; 
if (target == word) continue; 
label = 0; 
} 
12 = target * layeri_size; 
f-20; 


for (c = 0; c < layeri.size; c++) f += neui[c] * synineg[c + 12]; 

if (f > MAX EXP) g = (label - 1) * alpha; 

else if (f « -MAX_EXP) g = (label - 0) * alpha; 

else g = (label - expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / 
MAX.EXP / 2))]) * alpha; 

for (c = 0; c < layeri_size; c++) neuie[c] += g * synineg[c + 12]; 


for (c = 0; c < layeri.size; c++) synineg[c + 12] += g * neui[c]; 


} 

// hidden -> in 

for (a = b; a < window * 2 + 1 - b; a++) if (a != window) { 
c = sentence position - window + a; 


if (c « 0) continue; 

if (c >= sentence length) continue; 

last word = sen[c]; 

if (last word == -1) continue; 

for (c = 0; c < layeri.size; c++) synO[c + last word * layeri size 


] += neuie[c]; 
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最 后 , word analogy 是 一 种 有 趣 的 现象 , 可 以 作为 评估 词 向 量 质量 的 一 项 任务 。word 
analogy 是 指 训练 出 的 word embedding 可 以 通过 加 减法 操作 , 来 对 应 某 种 关系 。 比 如 说 
图 4.27 ( 左 ) 中 , 有 (国王 ) —w (E) ~ w (男人 ) —w GA). 那么 评测 时 , 则 是 已 
知 这 个 式 子 , 给 出 国王 、 女 王 和 男人 三 个 词 , 看 与 w (国王 ) —w (女王 ) +w (女人 ) 最 接 
近 的 是 否 是 w (男人 )。 右 图 则 表示 ,word analogy 现象 不 只 存在 于 语义 相似 , 也 存在 于 
语法 相似 。 


l 
WPMAN AUNT QUEENS 
MAN NOS KINGS 
QUEEN En QUEEN 
KING KING 


图 4.27 word analogy 示例 


这 样 我 们 就 基本 了 解 了 Word2Vec 的 训练 过 程 ， 回 到 node2vec 的 训练 ， 下 面 的 思 
路 其 实 就 和 Word2Vec 基本 一 致 了 。 我 们 从 上 一 步 获得 的 训练 样本 是 用 户 节 点 串 ， 形 如 
4 一 B 一 F 一 C 一 万 一 …， 每 一 个 节点 其 实 对 应 了 Word2Vec 中 的 单词 , 模型 的 输入 是 某 
个 用 户 的 one-hot 编码 , 输出 是 该 用 户 在 节点 串 中 前 后 的 节点 , 例如 输入 是 下 的 编码 , 输 
出 是 A. B. C. H 的 概率 分 布 。 最 后 得 到 的 输出 是 每 个 节点 ( 即 用 户 ) 的 Word2Vec 向 量 。 

有 了 数值 化 的 向 量 , 对 于 任意 两 个 用 户 , 我 们 就 可 以 余弦 (在 4.1.2 节 中 有 具体 计算 
代码 ) 或 霍 氏 距离 计算 这 两 个 用 户 的 相似 度 。 之 后 的 计算 过 程 就 和 本 书 3.3.1 节 介 绍 的 
方法 一 致 。 针 对 用 户 v 挑选 个 最 相似 的 用 户 , 把 他 们 购买 物品 中 u 未 购买 过 的 推荐 给 
用 户 w 即 可 。 为 了 减少 计算 量 , 我 们 往往 会 仅 计算 用 户 u 和 其 关注 用 户 的 相似 度 , 而 不 
是 计算 用 户 v 与 所 有 用 户 的 相似 度 。 

完整 的 node2vec 训练 可 以 参考 项 目 源码 http://snap.stanford.edu/node2vec/, 使 用 说 
明 如 下 : 


The code works under Windows with Visual Studio or Cygwin with GCC, 
Mac 0S X, Linux and other Unix variants with GCC. Make sure that a 
C** compiler is installed on the system. Visual Studio project files 
and makefiles are provided. For makefiles, compile the code with 


"make all". 


HMM P P P P P P P g 9 E ML BL MU HL ATT 
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Parameters: 

## 输 入 图 路 径 

Input graph path (-i:) 

## 输 出 路 径 

Output graph path (-o:) 

## 输 出 向 量 的 维度 

Number of dimensions. Default is 128 (-d:) 

## 每 次 随机 游 走 的 步 数 

Length of walk per source. Default is 80 (-1:) 
## 每 个 起 始点 的 路 径 个 数 

Number of walks per source. Default is 10 (-r:) 
水 # 词 窗口 大 小 

Context size for optimization. Default is 10 (-k:) 
BIEN AE 

Number of epochs in SGD. Default is 1 (-e:) 
Return hyperparameter. Default is 1 (-p:) 
Inout hyperparameter. Default is 1 (-q:) 
Verbose output. (-v) 

Ind Mid 

Graph is directed. (-dr) 

## 是 否 有 权重 边 

Graph is weighted. (-w) 


Output random walks instead of embeddings. (-ow) 
HMM M n P Pn P PP P P P HH gn 
Usage: 


./node2vec -i:graph/karate.edgelist -o:emb/karate.emb -1:3 -d:24 


-p:0.3 -dr =y 


4.4 推荐 系统 的 冷 启 动 问题 


44.1 ”如 何 解 决 推荐 系统 冷 启动 问题 
AAD (cold start) 在 推荐 系统 中 表示 该 系统 积累 数据 量 过 少 ,无 法 给 新 用 户 作 个 
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性 化 推荐 的 问题 , 这 是 产品 推荐 的 一 大 难题 。 每 个 有 推荐 功能 的 产品 都 会 遇 到 冷 启动 的 
问题 。 一 方面 ， 当 新 商品 时 上 架 也 会 遇 到 冷 启动 的 问题 , 没有 收集 到 任何 一 个 用 户 对 其 
浏览 、 点 击 或 者 购买 的 行为 ， 也 无 从 判断 如 何 将 商品 进行 推荐 ; 另 一 方面 ， 新 用 户 到 来 
的 时 候 ， 如 果 没 有 他 在 应 用 上 的 行为 数据 ， 也 无 法 预测 其 兴趣 ， 如 果 给 用 户 的 推荐 千 篇 
一 律 , 没有 亮点 ,会 使 用 户 在 一 开始 就 对 产品 失去 兴趣 ， 从 而 放弃 使 用 。 所 以 在 冷 启动 
的 时 候 要 同时 考虑 用 户 的 冷 启 动 和 物品 的 冷 启动 。 

基本 上 , 冷 启动 问题 可 以 分 为 以 下 三 类 。 

用 户 冷 启动 : 用 户 冷 启动 主要 解决 如 何 给 新 用 户 作 个 性 化 推荐 的 问题 。 当 新 用 户 到 
来 时 , 我 们 没有 他 的 行为 数据 ， 所 以 也 无 法 根据 他 的 历史 行为 预测 其 兴趣 ， 从 而 无 法 借 
此 给 他 做 个 性 化 推荐 。 

物品 冷 启 动 : 物品 冷 启动 主要 解决 如 何 将 新 的 物品 推荐 给 可 能 对 它 感 兴趣 的 用 户 这 
一 问题 。 

系统 冷 启动 : 系统 冷 启 动 主 要 解决 如 何在 一 个 新 开发 的 网 站 上 (还 没有 用 户 ， 也 没 
有 用 户 行为 ,只 有 一 些 物品 的 信息 ) 设计 个 性 化 推荐 系统 ， 从 而 在 产品 刚 上 线 时 就 让 用 
户 体 验 到 个 性 化 推荐 服务 这 一 问题 。 

第 一 部 分 : 针对 用 户 冷 启动 ,下面 给 出 一 些 解决 方案 。 

方案 一 : 有 效 利用 用 户 的 账户 信息 。 

利用 用 户 的 账号 信息 。 一般 来 说 , 国内 腾讯 的 QQ 号 、 微 信号 , 淘宝 的 旺旺 号 , 新 浪 
的 微 博 号 ， 国 外 的 Google 账号 、Facebook 账号 已 经 成 为 大 部 分 APP 的 快速 注册 账号 。 
如 图 4.28 Pras, 网 站 或 APP 可 以 通过 公开 的 SDK 支持 外 部 账号 的 登录 。 


/me maa RAS Em Wr mx om SU ae sana N^ 8 


图 4.28 某 网 站 登录 页 面 
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如 果 用 户 使 用 这 些 账 号 进行 登录 , 我 们 可 以 通过 账号 信息 追溯 用 户 在 其 他 平台 上 的 
行为 ， 作 为 冷 启动 的 参考 。 例 如 ， 某 用 户 在 腾讯 视频 经 常 看 游戏 动漫 频道 ， 如 果 在 音乐 
APP 对 其 推荐 日 本 ACG 歌曲 可 能 会 比 华语 流行 歌曲 更 好 。 如 果 读 者 在 新 建 一 个 APP 或 
者 网 站 , 不 妨 接 入 这 些 公开 的 SDK, 开发 者 可 以 登录 https:/ /connect.qq.com/ , 通过 以 下 
几 个 步骤 , 即 可 接 入 互联 开放 平台 : 注册 开发 者 一 创建 应 用 一 完善 信息 并 获取 接口 。 下 
面 给 出 QQ 接 入 的 参考 。 

D 注册 开发 者 , 在 QQ 互联 开放 平台 首页 https://connect.qq.com/ ， 点 击 右 上 和 角 的 
“登录 ”按钮 ,使 用 QQ 账号 登录 ， 如 图 4.29 所 示 。 登 录 成 功 后 会 跳 转 到 开发 者 注册 页 
面 , 在 注册 页 面 按 要 求 提交 公司 或 个 人 的 基本 资料 。 如 图 4.29 所 示 的 是 公司 注册 页 面 。 

20 按 要 求 提交 资料 后 , 审核 人 员 会 进行 审核 , 通过 审核 即 可 成 为 开发 者 。 进行 网 站 
应 用 及 移动 应 用 接 入 申请 。 应 用 接 入 前 , 需 首先 进行 申请 , 获得 对 应 的 appid 与 appkey， 
以 保证 后 续 流 程 中 可 正确 对 网 站 与 用 户 进行 验证 与 授权 。 
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图 4.29 QQ 互联 开放 注册 平台 1 
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30 创建 应 用 : 开发 者 注册 完成 后 ， 点 击 “ 应 用 管理 ”按钮 。 跳 转 到 QQ 互联 管理 中 
ORM, 点击 创建 应 用 。 


[3941] COAMOSRRROSHESS ERN 


图 4.30 QQ 互联 开放 注册 平台 2 


4) 选择 需要 创建 的 应 用 类 型 , 我 们 以 网 站 应 用 为 例 。 网 站 信息 填写 完成 ， 点击 “ 创 
建 应 用 ”后 , 网 站 应 用 创建 完成 。 点击 “应 用 管理 ”进入 管理 中 心 , 在 管理 中 心 可 以 查 
看 到 网 站 获取 的 appid 和 appkey, 如 图 4.32 所 示 。 


e 测试 . 
= 
网 站 应用 enam [=] 


应 用 名称 APPID 创建 8j 间 审核 状态 操作 


图 4.31 QQ 互联 应 用 管理 页 面 1 


“EE 
图 4.32 QQ 互联 应 用 管理 页 面 2 


5) 网 站 信息 完善 : 点 击 “ 应 用 中 心 ” 在 应 用 中 心 右 侧 的 侧 边 栏 中 点 击 “ 查 看 ”, XE 
入 应 用 详情 页 面 。 在 应 用 详情 页 面 可 点 击 “ 修 改 ” 来 编辑 应 用 的 “基本 信息 ”和 “平台 信 


A”. 之 后 点 击 “ 应 用 接口 ” 可 查看 已 获取 的 接口 (如 图 4.33 所 示 ), 就 能 看 到 可 以 使 用 
QQ 登录 功能 。 


图 433 QQ 互联 QQ 登录 功能 获取 
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方案 二 : 利用 用 户 的 手机 IMEI 号 进行 冷 启动 。 

有 Android 系统 的 手机 开放 度 较 高 , 因此 对 于 各 大 商家 来 说 多 了 很 多 了 解 用 户 的 机 
会 。 iPhone 也 有 类 似 的 接口 可 以 获取 到 OpenUDID 来 区 分 不 同 的 设备 。 比 如 大 家 在 淘宝 
浏览 了 某 些 物品 后 , 在 今日 头条 、 网 易 新 闻 等 APP 的 广告 推荐 中 , 就 立刻 有 了 相关 产品 
的 广告 , 这 就 是 因为 他 们 在 背后 已 经 用 设备 号 将 你 在 不 同 APP 中 的 行为 连接 起 来 了 。 

方案 三 : 制造 选项 , 让 用 户 选择 自己 感 兴趣 的 点 后 , 即时 生成 粗 粒 度 的 推荐 。 

相对 于 前 面 两 个 方案 来 说 ,这 种 路 径 不 够 自然 ,用户 体验 相对 较 差 , 但 是 如 果 给 予 
足够 好 的 设计 , 还 是 能 吸引 用 户 去 选择 自己 感 兴趣 的 点 , 而 使 转化 率 得 以 提升 。 比 如 在 
QQ 音乐 APP 中 就 有 用 户 偏好 的 选择 页 面 ， 如 下 图 所 示 ， 网 易 云 音乐 也 有 类 似 的 功能 
入 口 。 


《 我 不 喜欢 
选择 我 喜欢 


轻 点 一 下 ， 选 中 的 类 型 将 被 优先 推荐 


保存 


4.34 QQ 音乐 APP 中 的 偏好 选择 
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第 二 部 分 : 针对 物品 的 冷 启动 的 解决 方案 

方案 一 : 利用 物品 的 内 容 信息 。 

物品 冷 启动 需要 解决 的 问题 是 如 何 将 新 加 入 的 物品 推荐 给 对 它 感 兴趣 的 用 户 。 这 时 
候 最 基本 的 方法 是 通过 物品 描述 等 文字 中 的 语义 来 计算 其 相似 度 。 常 用 的 算法 有 TF- 
IDF， 在 本 书 的 3.1.2 节 中 己 有 详细 的 介绍 ， 读 者 可 在 该 章节 中 获取 TF-IDF 的 算法 思 
想 和 计算 方法 。 

方案 二 : 利用 专家 标注 的 数据 。 

2009 年 Amatriain 等 人 发 表 在 ACM 的 一 篇 关于 推荐 系统 的 文章 《The wisdom of the 
few: a collaborative filtering approach based on expert opinions from the web》。 所谓 少数 人 
的 智慧 ， 实 际 指 的 是 作者 提出 的 基于 专家 的 协同 过 滤 (CF) 在 某 些 方面 要 优胜 于 传统 的 
CF 算法 。 在 某 些 场景 下 , 基于 专家 标注 的 数据 效果 甚至 好 于 基于 用 户 行为 的 数据 。 例如 
国外 的 Pandora 音乐 APP rp, 描述 一 首 歌曲 的 特征 细 化 到 了 歌曲 的 编 曲 、 乐 器 搭配 、 乐 
器 演奏 特征 、 风 格 、 根 源 、 人 声 的 特征 、 曲 调 、 旋律 特 征 等 维度 , 并 且 以 一 种 非常 客观 的 
角度 来 描述 歌曲 的 特征 , 是 一 种 所 有 人 耳 条 都 能 接触 到 的 物理 属性 ， 即 不 会 随 欣 赏 者 阅 
历 的 不 同 而 有 不 同 的 认 知 , 其 中 排除 了 情感 属性 。 而且 Pandora 能 显示 出 来 的 这 些 标签 
仅仅 是 音乐 基因 非常 小 的 一 部 分 , 还 有 很 多 其 他 没有 了 曝光 的 音乐 标签 , 4E UL RE DUOC 
是 种 专业 而 客观 的 描述 方式 ,把 一 首 歌 当 作 一 个 看 得 见 摸 得 着 的 物品 进行 剖析 , 用 标签 
来 描述 它 。 下 面 介绍 如 何 通过 专家 数据 进行 推荐 。 

首先 定义 专家 ,他 们 必须 是 这 样 的 一 群 人 : 在 一 个 特定 的 领域 内 ， 他 们 能 对 该 领域 
内 的 条 目 给 出 深思 熟 虑 的 、 一 致 的 、 可 靠 的 评价 (打分 )。 在 《The wisdom of the few) 3X 
篇 文章 里 , 作者 并 没有 详细 地 探讨 如 何 从 数据 中 发 现 一 批 领域 专家 , 他 们 挑选 的 是 一 批 
从 http://rottentomatoes.com JER MN SLA HIB ee a, 这样 可 以 使 得 他 们 讨论 的 主 
题 更 为 集中 ,因为 这 些 专 家 都 是 经 过 人 工 筛选 的 ,所 以 ,可 以 忽略 因 专 家 挑选 算法 的 不 
足 而 给 后 续 算法 与 分 析 带 来 的 偏差 。 为 了 对 比 效果 , 选择 以 下 两 个 数据 集 。 

1) 来 自 Netflix 的 一 个 庞大 的 电影 打分 集 。 

2) 如 上 所 描述 的 从 http://rottentomatoes.com IER MENSA PAR. SRA 
据 集 有 169 个 经 过 筛选 的 用 户 ,， 他们 的 打分 记录 都 大 于 等 于 250 个 。 经 过 两 个 数据 集中 
电影 的 匹配 ， 剩 下 8000 部 两 个 数据 集中 都 出 现 过 的 电影 ， 占 原 Netflix 电影 全 集 的 5096 
左右 。 

同时 专家 的 打分 数据 与 普通 用 户 的 打分 数据 有 比较 大 的 差异 。 


t 
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D 专家 打分 的 数据 集 比 用 户 打分 更 加 稠密 。 

图 4.35 是 一 个 累积 分 布 图 (CDF )， 对 两 个 数据 集 各 作 一 条 线 。 其 中 (a) 中 的 每 一 
个 点 (2, y) 表示 打分 人 数 <=z 的 电影 占 电 影 总 数 的 比例 ; 类 似 地 , 图 (b) 中 的 每 一 个 点 
(z,y) 表示 打分 记录 <=z 的 用 户 占用 户 总 数 的 比例 。 结 论 : 专家 用 户 的 打分 比 一 般 用 户 
要 多 得 多 ,数据 集 也 要 稠密 得 多 。 实 际 上 , 数据 集 2 的 稀疏 系数 约 为 0.07 (用 户 评分 矩 
阵 中 非 0 元 素 的 比例 )， 而 数据 集 1 的 稀疏 系数 约 为 0.01。 图 2a 中 专家 曲线 在 y 上 的 截 
距 为 0.2, 表示 有 20% 的 电影 其 实 只 有 一 个 人 打 过 分 。 

S 电影 得 分 分 布 # 用 户 打分 分 布 


o Eose a Expt 一 
10 10 10? 10 10 10° 10 1 10 100 1000 10000 
(a) (b) 


4.35 (a) 为 每 部 电影 被 打分 的 分 布 ，(b) 为 每 个 用 户 打分 的 分 布 


2) 专家 打分 的 数据 比 用 户 打分 一 致 性 更 强 。 


图 4.36 是 每 部 电影 的 平均 分 分 布 和 用 户 平均 分 分 布 。 其 中 (a) 表示 , 专家 用 户 的 曲 
线 在 高 分 段 占有 更 多 的 电影 , 说 明 他 们 对 好 电影 的 认同 更 为 一 致 ; (b) 表示 , 专家 用 户 自 


电影 平均 分 分 布 i 用 户 打分 平均 分 分 布 


让 
Experts 


图 4.36 (a) 为 每 部 电影 平均 分 分 布 , (b) 为 每 个 用 户 平均 分 分 布 
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己 平均 评分 的 变化 范围 不 大 , 但 对 电影 的 覆盖 面 更 广 ， 即 无 论 好 片 还 是 烂 片 ， 都 有 一 定 
量 的 打分 记录 , 而 一 般 用 户 正 好 相反 。 说 明 专 家 用 户 的 打分 并 不 依赖 于 这 是 否 好 片 ， 只 
是 一 个 客观 的 评价 , 而 一 般 用 户 并 不 倾向 于 收藏 烂 片 。 

既然 专家 的 数据 更 加 优质 , 也 可 以 在 新 物品 没有 用 户 行为 数据 的 情况 下 使 用 ， 那么 
我 们 为 什么 不 使 用 专家 数据 进行 协同 呢 ? 专家 CF 算法 跟 传统 的 基于 用 户 的 CF 算法 基 
本 是 一 致 的 ,只 是 把 原来 用 户 的 评分 数据 蔡 换 成 了 专家 评分 数据 ， 从 而 计算 出 物品 的 相 
似 度 , 方法 可 以 参考 本 书 3.2.1 节 。 作 者 也 使 用 MAE (Mean Absolute Error) 评价 指标 对 
基于 专家 和 基于 用 户 的 数据 集 进行 比较 , 结果 如 下 表 所 示 , 专家 CF 比 专家 平均 的 MAE 
有 很 大 的 信息 增益 效果 , 虽然 比 传统 CF 要 差 , 但 覆盖 度 却 比 传统 CF 要 大 。 

| 方法 比较 | 平均 误差 | amg | 

评论 家 选择 100% 


基于 专家 数据 的 CF 97.7% 
基于 用 户 的 CF 92.9% 


图 4.37 基于 专家 数据 的 CF 与 基于 用 户 数据 CF 比较 


4.4.2 ”深度 学 习 技 术 在 物品 冷 启动 上 的 应 用 


基于 专家 的 CF 方法 , 可 以 降低 对 用 户 行为 数据 的 依赖 , 解决 新 物品 冷 启动 的 问题 。 
但 是 对 于 大 部 分 初创 公司 或 者 刚刚 启动 的 APP, 没有 能 力也 没有 足够 的 资金 获得 如 此 大 
量 的 专家 数据 。 那 是 不 是 就 没有 其 他 解决 办 法 了 呢 ? 答案 是 否定 的 。 深度 学 习 技 术 的 推 
广 , 为 我 们 打开 了 一 扇 新 的 大 门 ， 让 我 们 可 以 减少 对 外 部 数据 的 依赖 ,直接 从 物品 本 质 
内 容 上 去 理解 它 。 本 节 将 为 读者 介绍 两 个 案例 : 一 个 是 音乐 推荐 ， 基 于 音频 文件 ,训练 
流派 分 类 模型 ， 对 于 新 歌曲 也 可 以 获得 流派 高 维特 征 ， 以 此 对 物品 进行 分 类 ; 一 个 是 短 
视频 的 推荐 , 基于 视频 图 像 , 对 于 人 像 进行 魅力 值 打 分 ,结果 也 可 作为 冷 启动 的 特征 。 

案例 一 : CNN 在 音频 流派 分 类 上 的 应 用 。 

在 音乐 推荐 中 ， 音 乐 流派 是 相当 重要 的 特征 。 前 面 也 有 提 到 国外 的 Pandora 音乐 
APP 中 ， 通 过 专家 数据 描述 歌曲 的 特征 细 化 到 了 歌曲 的 编 曲 、 乐 器 搭配 、 乐 器 演奏 特 
征 、 风 格 、 根 源 、 人 声 的 特征 、 曲 调 、 旋 律 特 征 等 这 些 维度 。 

一 般 来 说 ， 人 们 可 以 通过 一 定 音 乐 常识 的 积累 , 对 一 首 歌曲 进行 分 类 。 专 家 在 几 秒 
HA, TUAN- EKI ERE ERLER E. 然而, 尽管 这 项 任务 对 我 们 来 说 很 简 
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单 ， 但 是 音乐 的 数据 库 是 庞大 的 , & QQ 音乐 、 网 易 云 音 乐 等 平台 , 音乐 的 量 级 都 在 千 
万 以 上 。 如 果 分 类 一 首 歌曲 需要 最 快 花费 3 秒 来 计算 ， 人 工 对 1000 万 首 歌 分 类 至 少 需 
要 833 小 时 , 且 这 是 理想 状态 之 下 。 所 以 我 们 就 在 想 能 否 通过 使 用 深度 学 习 来 帮助 我 们 
完成 这 项 劳动 密集 型 任务 。 我 们 希望 通过 以 下 几 个 步骤 来 完成 音乐 的 分 类 : 

1) 提取 已 知 流派 分 类 的 歌曲 样本 ; 

2) 训练 一 个 深度 神经 网 络 来 分 类 歌曲 ; 

3) 使 用 分 类 器 对 未 分 类 的 歌曲 进行 流派 分 类 。 

首先 , 我 们 需要 一 个 数据 集 , 为 此 我 们 需要 一 个 已 知 流派 分 类 的 样本 库 。 在 QQ 音 
乐 、 豆 为 、 网 易 云 音乐 平台 上 均 有 这 样 的 流派 分 类 ， 分 类 里 面 的 歌曲 虽然 不 全 ,但 是 已 
足够 我 们 训练 模型 了 。 下面 的 案例 主要 选择 了 摇滚 、 民谣、 曙 士 、 电 子 四 个 流派 , 每 个 流 
派 下 载 了 1000 首 歌 。 

一 旦 我 们 有 足够 多 的 流派 , 并 有 足够 的 歌曲 , 我 们 就 可 以 开始 从 数据 中 提取 重要 信 
息 。 一 首 歌 对 应 一 个 音频 文件 。 经 典 的 采样 频率 为 44100Hz —— 每 秒 音频 存储 44100 个 
值 , 而 立体 声 则 为 两 倍 。 这 意味 着 一 首 3 分 钟 长 的 立体 声 歌曲 包含 7938000 个 样本 。 这 
样 训练 量 会 非常 大 , 我 们 可 以 先 把 立体 声 声 道 丢 弃 ， 因 为 它 包 含 高 度 元 余 的 信息 。 


V mmm 


100 毫 秒 的 音乐 频谱 


DeepMind-WaveNet 


438 音乐 频谱 示例 


接 下 来 使 用 傅 里 叶 变换 将 我 们 的 音频 数据 转换 到 频 域 。 这 使 得 数据 的 表示 更 加 简单 
和 紧凑 , 我 们 将 其 以 谱 图 形式 输出 。 这 个 过 程 会 给 我 们 生成 一 个 PNG 文件 , 其 中 包含 我 
们 的 歌曲 的 所 有 频率 随 着 时 间 的 变化 。 这 个 步骤 可 以 借助 libsora 工具 来 完成 。 我们 使 用 
每 秒 50 像素 (每 像素 20ms)， 以 降低 PNG 图 片 的 分 辨 率 并 将 图 片 切割 成 10~15s 的 片 
B, 因为 一 般 来 说 10s 就 足够 用 于 判断 音乐 的 分 类 了 。 最 后 就 可 以 得 到 如 图 4.39 这 样 的 
频谱 图 。 

时 域 位 于 z HL, 频率 位 于 y 轴 上 ,最 高 频率 在 顶部 ,最 低频 率 在 底部 。 频 率 的 缩 
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放 幅 度 以 灰 度 显示 , 其 中 白色 是 最 大 值 , 黑色 是 最 小 值 。 这 样 我 们 就 把 音频 分 类 问题 , 转 
化 为 图 片 分 类 问题 。 对 应 图 片 分 类 , 最 常用 的 深度 学 习 方案 是 CNN。 我 们 可 以 构建 如 图 
4.40 所 示 的 CNN 网 络 分 类 模型 。 


Ll 


Rock Electronic 


图 4.39. 4 个 流派 的 频谱 图 示例 
Conv. Conv. Conv. Conv. Fully Softmax 


+MaxPool +MaxPool +MaxPool +MaxPool Connected Classifier 


j í 
16x16x256 
32x32x128 


64x64x64 
128x128x1 1024 


卷 积 神经 网 络 
4.40 CNN 音频 分 类 结构 


利用 上 面 的 CNN 分 类 模型 , 我 们 已 经 可 以 得 到 一 个 不 错 的 音乐 分 类 模型 了 。 然 而， 
CNN 模型 却 不 完全 适用 于 音频 分 类 。 一 般 图 片 分 类 具有 invariance (不 变性 ), 即 图 片 旋 
转 后 对 分 类 不 会 有 影响 , 但 是 音频 的 频谱 图 并 不 是 这 样 , 它 在 z 轴 和 y 轴 分 别 表示 具体 
时 域 和 频 域 的 特征 。 另外 CNN 通过 filter size 获取 前 后 信息 , 但 是 受 限于 size 大 小 , long 
dependence 方面 不 如 LSTM。 所 以 本 书 作者 进一步 提出 了 CNN+LSTM 的 音乐 分 类 结构 ， 
网 络 结构 如 图 4.41 所 示 。 

TUER, 上面 的 模型 是 在 二 层 卷 积 层 后 , 把 不 同 通道 上 相同 时 序 上 的 特征 组 合 起 
来 , 作为 LSTM 层 的 输入 , 然后 再 通过 全 连接 层 提取 出 进一步 的 音频 分 类 特征 。 经 过 测 
试 ,方案 一 CNN 分 类 模型 的 四 分 类 准确 率 为 67%, 而 方案 二 的 准确 率 可 以 达到 73%, 对 
最 后 的 分 类 准确 率 提升 比较 明显 。 

我 们 观察 分 类 结果 的 混淆 矩阵， 其 中 纵 坐 标 表示 测试 集 音乐 标注 好 的 流派 分 类 , 横 
坐标 为 模型 预测 的 分 类 。 当 纵 坐 标 和 横 坐 标 标签 一 致 时 ,说 明 模 型 预测 正确 ; 不 一 致 时 ， 
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说 明 模 型 预测 有 偏差 。 如 图 所 示 , 标注 为 电子 的 音乐 预测 正确 ， 即 预测 为 电子 音乐 的 数 
量 ， 占 整个 测试 集 的 20.0%。 可 以 发 现 预测 错误 的 主要 是 电子 和 扬 滚 、 民 谣 和 狠 士 的 互 
fü. 事实 上 , 这 些 流派 本 身 比 较 接近 , 比如 很 多 歌曲 同时 属于 电子 和 摇滚 两 个 流派 。 


Spectrograms 
(None,512,128) 


10s Slice 
— 
c 


DABUR HARME 
© STM L 2)stm 构 造 序列 特征 
Dense-FRelu (None, 512) 3) HARE STRE 12840) 
e Dense+Relu (None, 128) 


测试 集 的 分 类 准确 率 73% 


图 4.41 CNN+LSTM 组 合 音频 分 类 模型 


预测 结果 
pora 民谣 Rt 
| 20.0% | 
| 15% | 


= 电子 摇滚 
[ er [mum 
15% 


图 4.42 ”分 类 预测 结果 的 混淆 矩阵 


除了 流派 分 类 结果 可 作为 标签 特征 应 用 到 模型 之 外 , 模型 倒数 第 二 层 的 128 维 向 量 
也 可 以 作为 歌曲 特征 应 用 到 模型 里 , 图 4.43 是 将 各 流派 抽取 了 top100 新 歌 向 量 降 维 到 


TSNE 抽 样 可 视 化 结果 


图 4.43 ”模型 倒数 第 二 层 128 维 向 量 降 维 可 视 化 
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二 维 平面 后 的 结果 。 可 以 看 到 流派 聚 类 效果 也 比较 明显 。 FKE, 使 用 高 维度 的 向 量 特 
征 ， 比 流派 分 类 这 种 低 维 特征 信息 表达 能 力 强 , 对 模型 效果 提升 更 加 明显 。 
模型 结构 设计 代码 参考 如 下 : 


# -*- coding: utf-8 -*- 


impo 
impo 
from 
from 
from 
from 
from 


from 


def 


rt numpy as np 
rt keras 
keras.models import Sequential 
keras.layers import Dense,Dropout ,Activation,Flatten 
keras.layers import Conv2D ,MaxPooling2D ,ZeroPadding2D 
keras.layers.recurrent import LSTM, GRU 
config import timeratio 
keras.layers.core import Dense, Dropout, Activation, Flatten, Reshape , 


Permute 


createModel (nbClasses , imageSize): 


print("[*] Creating model...timeratio:%d"%(timeratio)) 


model=Sequential () 


model.add( Conv2D(filters=256, input shape-(imageSize*timeratio ,imageSize 


; 1) ,kernel_size=(3,3) ,activation= 
model.add(MaxPooling2D(pool.size-(2,2))) 


relu',padding='same') ) 

model .add (Dropout (rate=0.5)) 

model.add( Conv2D(filters-512,input shape-(192,64, 256) ,kernel_size 
=(3,3) ,activation='relu',padding='same') ) 

model .add (MaxPooling2D(pool_size=(2,2))) 

model .add (Dropout (rate=0.5)) 

model .add (Flatten ()) 

#model .add(Permute((1, 3,2), input shape-(382, 1, 64))) 

11-96 


12-32*512 
model.add(Reshape((11 , 12))) 


106 | 推荐 系统 与 深度 学 习 


model.add(LSTM( 


# for batch.input.shape, if using tensorflow as the backend, we have to put None for the 


batch.size. 


# Otherwise, model.evaluate() will get error. 


) 


batch input shape-(None, 11 , 12), 
# Or: input.dim-INPUT.SIZE, input.length-TIME.STEPS, 
output dim-512, 


unroll=True, 


#model .add (Dropout (0.5)) 


model .add (Dense (units=1024, activation='relu')) 


model .add (Dropout (0.5) ) 


model .add (Dense (units=256, activation='relu')) 


model .add (Dropout (0.5) ) 


model .add (Dense (nbClasses ,activation='softmax')) 


struct =model. summary () 


print (struct) 


model . compile (loss='categorical _crossentropy',optimizer='adam',metrics=[' 


accuracy']) 


print(" Model created!") 


return 


model 


案例 二 : 人 脸 魅 力 值 打分 在 视频 推荐 中 的 应 用 。 
2015 年 的 五 一 假期 , 微软 how-old.net 大 火 。 不仅 有 “郭德纲 和 林志颖 之 间 其 实 差 了 
个 吴奇隆 ”的 笑话 , 又 有 名 人 如 李开复 发 微 博 称 “终于 达成 愿望 , 有 个 比 自己 小 50 岁 的 
老婆 ”的 调侃 。 当 时 通过 照片 对 年 龄 进行 评估 的 技术 刚刚 形成 应 用 ， 外 界 对 微软 的 此 项 


BRT 


了 各 种 质疑 和 猜测 。 但 是 现在 看 来 , RABKEWA 


龄 预测 模型 并 不 困难 。 


本 ， 训 练 一 个 端 到 端的 年 
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EMR RREZ ĊARA”, 在 视频 推荐 过 程 中 ,人物 的 魅力 值 十 分 重要 。 特别 是 
针对 新 入 库 的 视频 文件 , 没有 用 户 反 馈 数据 时 , 依据 图 片 内 容 , 对 人 物 进行 魅力 值 打 分 ， 
成 为 优化 冷 启动 效果 比较 有 效 的 手段 。 

人 脸 魅 力 评 分 利用 传统 机 器 学 习 方法 取得 了 较 多 成 果 。 Eisenthal 等 2006 年 在 《Facial 
Attractive-ness: Beauty and Machine》 中 采用 特征 脸 作为 人 脸 魅 力 值 特征 ， 再 用 SVM、 
KNN (K-Nearest Neighbor) 等 机 器 学 习 方 法 来 分 类 , 实验 证 明 机 器 学 习 方 法 可 应 用 于 人 
脸 魅 力 值 预测 。Mao 等 在 《基于 几 个 特征 及 C4.5d 的 人 脸 美丽 分 类 方法 》 中 最 初 通 过 手 
工 标 注 关 键 点 方式 , 提出 人 脸 几 何 特征 提取 方法 ,实验 对 比 表 明 SVM 在 人 脸 魅 力 值 分 
类 方面 具有 较 好 的 效果 。 但 传统 机 器 学 习 方 法 在 图 像 识 别 领域 , 尤其 在 特征 提取 、 预 测 
准确 性 、 算法 鲁 棒 性 等 方面 均 与 深度 学 习 方 法 存在 较 大 差距 。 


6n iov og net 


Sony Two dint quite eet grt sb aro i ramane His fears 


图 444 微软 how-old.net 


而 利用 CNN 网 络 对 人 脸 进行 端 到 端的 打分 , 不 仅 省 去 了 大 量 特征 构造 与 提取 的 工 
He, 准确 率 也 得 到 了 较 大 的 提升 。 

实验 的 样本 来 自 4SCUT-FBP: A Benchmark Dataset for Facial Beauty Perception), 该 
样本 收录 了 500 多 个 亚洲 女性 的 脸 部 近 照 图 ， 相 较 于 国外 的 数据 集 , 更 切合 我 们 的 实用 
环境 。 特 别 是 欧美 审美 与 亚洲 审美 存在 较 大 差异 ,所 以 对 于 魅力 值 这 样 的 主观 指标 ,使 
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m 


月 合适 的 数据 集 至 关 重 要 。 原 始 的 样本 集 如 图 4.45 所 示 。 

样本 主要 都 是 人 脸 近 照 ,为 了 提升 后 面 的 分 类 准确 率 , 减少 背景 和 脸 部 位 置 、 大 小 
的 干扰 , 我 们 可 以 先 使 用 一 些 人 脸 检测 的 开源 工具 进行 脸 部 位 置 截取 。 截取 ( 归 一 化 ) 后 
样本 数据 如 图 4.46 所 示 。 


SCUT-FBP-ljpg SCUT-FBP-2jpg SCUT-FBP-3jpg  SCUT-FBP-4.jpg 


SCUT-FBP-9,jpg —SCUT- m -10jpg SCUT- me lLjpg SCUT- ne 12jpg 


0028 


SCUT-FBP-ITjpg SCUT-FBP-I&jpg SCUT-FBP-I9jpg SCUT-FBP-20.jpg 


图 445 SCUT-FBP 数据 集 示 例 图 


Ier 


SCUT-FBP-ljpg ^ SCUT-FBP-2jpg ^ SCUT-FBP-3,jpg  SCUT-FBP-4.jpg 


SCUT-FBP-9jpg  SCUT-FBP-lOjpg SCUT-FBP-lljpg SCUT-FBP-12jpg 
g 


Heug 


SCUT-FBP-17jpg SCUT-FBP-l&jpg SCUT-FBP-19jpg SCUT-FBP-20.jpg 


446 脸 部 截取 后 的 数据 集 示例 
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脸 部 截取 的 参考 代码 如 下 : 


from PIL import Image 
import face_recognition 
import os 
print("h") 
def find and.save face(web file,face file): 
* Load the jpg file into a numpy array 
image = face recognition.load image file(web file) 
print(image.dtype) 
# Find all the faces in the image 


face locations = face recognition.face locations (image) 


print("I found () face(s) in this photograph.".format 


(ien(face locations))) 


for face_location in face. locations: 


# Print the location of each face in this image 


top, right, bottom, left - face location 


print("A face is located at pixel location Top: (), Left: 


{}, Right: {}".format(top, left, bottom, right)) 


# You can access the actual face itself like this: 
face image - image[top:bottom, left:right] 
pil_image = Image.fromarray (face image) 
pil.image.save(face file) 

print("h") 

list - os.listdir("web image/") 


print(list) 


for image in list: 
id tag - image.find(".") 
name-image [0: id tag] 


print (name) 


web_file = "./ Data Collection face/" *image 


face file-"./ Data Collection face resize/"*name*".jpg" 


o, 


Bottom 
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im-Image.open("./web image/"*image) 
try: 

find and. save face(web file, face file) 
except: 


print("fail") 


有 了 训练 样本 ， 我 们 可 以 先 用 一 个 标准 的 CNN 网 络 进行 魅力 值 评测 ， 其 中 模型 的 
输入 为 128x128x3 的 图 片 , 输出 为 样本 的 分 数值 (满分 为 5 分 , 对 分 数 进行 归 一 化 ), 参 
考 训练 代码 如 下 : 


from __future__ import print function 

from keras.models import Sequential 

from keras.layers.core import Dense, Dropout, Flatten, Activation 
from keras.layers.convolutional import Conv2D, MaxPooling2D 
import cv2 

import os 

import numpy as np 

import csv 


import matplotlib.pyplot as plt 


def shape. of array(arr): 
array = np.array(arr) 


return array.shape 


## 获 得 样本 的 评分 ， 并 归 一 化 
def get_label (num): 
with open('./label.csv') as csvfile: 
reader = csv.DictReader (csvfile) 
for row in reader: 
if row['#Image'] == str(num): 


return float(row['Attractiveness label']) 


HO RH AA 

def load_image_data(filedir): 
label = [] 
image_data_list = [] 


train_image_list = os.listdir(filedir) 
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# train_image_list.remove ('.DS_Store ') 


for img in train_image_list: 


url = os.path.join(filedir + img) 


# print url 


image = cv2.imread(url) 


image = cv2.resize(image, (128, 128)) 


image data list.append(image) 


img.num = int(img[img.find('P-')*2:img.find('.')]) 


att label - get label(img num) / 5.0 


print(img num, ' ', att label) 


label.append(att label) 


img_data = np.array(image data list) 


img_data = img data.astype('float32') 


img_data /= 255 


return img_data, label 


##keras 网 络 结构 设计 


def make_network (): 


model 


model. 
model. 
model. 
model. 
.add (MaxPooling2D(pool_size=(2, 2))) 


model 


model. 


model 


model. 
model. 
model. 


model. 


= Sequential () 

add(Conv2D(32, (3, 3), padding='same', input_shape=(128, 128, 3))) 
add (Activation ('relu')) 

add (Conv2D (32, (3, 3))) 


add (Activation ('relu')) 


add (Dropout (0.5) ) 


.add (Flatten ()) 


add (Dense (128) ) 

add (Activation ('relu')) 
add (Dropout (0.5) ) 

add (Dense (1) ) 


# model.add(Activation(’tanh’)) 


return model 


## 模 型 训练 主 函 数 


def main(): 


111 


112 


if 
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train_x, train_y = load image data('./Data Collection face resize/') 

model - make network() 

print (model.summary ()) 

model.compile(loss-'mean. squared error', optimizer-'adam', metrics=['mae' 
D 

hist = model.fit(train x, train y, batch_size=100, validation split-0.3, 


epochs=300 , verbose=1) 


model.evaluate(train_x, train_y) 


model.save('faceRank.h5') 


plt.plot(hist.history['10oss']) 
plt.plot(hist.history['val 1oss']) 

plt.title('train history') 

plt.ylabel('acc') 

plt.xlabel('epoch') 
plt.legend(['train','validation'],loc-'upper left') 
plt.show( 


-.name.. == '__main__': 


main() 


相 较 于 传统 的 SVR 等 机 器 学 习 方法 , 使 用 CNN 模型 对 魅力 值 的 打分 准确 率 已 经 有 


了 显著 提升 。 传 统 的 SVR 模型 在 该 样本 集 上 的 测试 误差 为 0.3961, 而 使 用 两 层 CNN 后 


能 降低 到 0.2358。 
表 4.3 ”人 脸 魅 力 值 打分 不 同 模型 的 MAE 比较 
方法 MAE ( 均 方 根 误差 ) 
传统 SVR 0.3961 
两 层 CNN 0.2358 
三 层 CNN 0.2133 
五 层 CNN 0.2081 


CNN 网 络 的 深度 对 最 后 的 分 类 和 识别 的 效果 有 着 很 大 的 影响 ， 所 以 一 般 想法 就 是 


能 把 网 络 设计 得 越 深 越 好 , 但 是 事实 上 却 不 是 这 样 ， 常规 的 网 络 的 堆 基 Cplain network) 
在 网 络 很 深 的 时 候 , 效果 却 越 来 越 差 了 。 
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20 20 
x x 56-layer 
E 5 
T 20-1: 
3 10 3 10 = 
E 56-layer x 
Š 5 
sm. 20-layer 3 
0 — ido 0 CH PES — 
0 1 2 3 4 5 6 0 1 2 3 4 5 6 


iter.(le4) iter.(le4) 


447 CNN 层 数 过 多 , 误差 反而 较 大 


造成 这 种 现象 的 原因 之 一 即 是 网 络 越 深 , 梯度 消失 的 现象 就 越 来 越 明 显 , 网 络 的 训 
练 效果 也 不 会 很 好 。 但 是 现在 浅 层 的 网 络 (shallower network) 又 无 法 明显 提升 网 络 的 识 
WAR, 所 以 现在 要 解决 的 问题 就 是 怎样 在 加 深 网 络 的 情况 下 又 能 够 解决 梯度 消失 的 问 
题 。 

为 此 引入 了 残 差 网 络 结构 (residual network), 通过 残 差 网 络 , 可 以 把 网 络 层 构建 得 
很 深 , 据说 现在 可 以 达到 1000 多 层 , 最 终 的 网 络 分 类 的 效果 也 非常 好 。 残 差 网 络 的 基本 
结构 如 图 4.48 所 示 。 


identity 


图 4.48 ” 残 差 网 络 的 基本 结构 


通过 在 输出 和 输入 之 间 引 入 一 个 shortcut connection, 而 不 是 简单 的 堆 琶 网 络 ， 这 样 
可 以 解决 网 络 由 于 很 深 出 现 梯 度 消失 的 问题 , 从 而 可 以 把 网 络 做 得 很 深 。 一 个 完整 的 残 
差 网 络 结构 如 图 4.49 所 示 。 

当 数 据 量 较 小 时 , 运用 深度 学 习 技术 很 可 能 会 出 现 过 拟 合 的 现象 , 但 是 仍 想 运用 训 
练 效果 较 好 的 如 VGGNet、GoogleNet 等 预 训 练 模型 时 , 可 以 只 对 于 网 络 最 后 面 的 几 层 进 
行 重新 训练 , 对 于 神经 网 络 的 底层 ,因为 它 充分 地 在 大 数据 集 上 进行 了 基础 特征 的 提取 
如 《〈 颜 色 、 边 框 等 )， 依 旧 可 以 在 我 们 的 数据 集合 上 进行 运用 。 这 就 是 finetuning。 使 用 
keras 的 接口 , 可 以 很 方便 地 帮助 我 们 实现 finetuning. 
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图 4.49 残 差 网 络 完整 结构 
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keras.applications.resnet50.ResNet50(include_top=True, weights='imagenet', 
input_tensor=None, input_shape=None, 
pooling=None, 


classes =1000) 


上 面 API 中 的 50 层 残 差 网 络 模型 , 权重 训练 自 InageNet。 参 数 含义 如 下 : 

include.top: 是 否 保留 顶层 的 全 连接 网 络 。 

weights: None 代表 随机 初始 化 , 即 不 加 载 预 训练 权重 。 “imagenet” 代 表 加 载 预 训练 
权重 。 

input_tensor: 可 填 入 Keras tensor 作为 模型 的 图 像 输出 tensor. 

input.shape: 可 选 , 仅 当 includetop=False ik. 应 为 长 为 3 的 tuple, 指明 输入 图 
片 的 shape, 图 片 的 宽 高 必须 大 于 197, 如 (200,200,3). 

pooling: 当 includetop=False 时 ， 该 参数 指定 了 池 化 方式 。None 代表 不 池 化 ,最 后 
一 个 卷 积 层 的 输出 为 AD KE. ‘avg’ 代表 全 局 平均 池 化 , ‘max 代表 全 局 最 大 值 池 化 。 

classes: 可 选 , 图 片 分 类 的 类 别 数 , 仅 当 includetop=True 并 且 不 加 载 预 训练 权重 时 
可 用 。 

完整 的 模型 训练 代码 如 下 : 


| 


from | future . import print function 


import keras as K 

from keras.models import Sequential ,Model 

from keras.layers.core import Dense, Dropout, Flatten, Activation 

from keras.layers import Dense ,Dropout ,Activation,Flatten ,merge,Input, 
concatenate 

from keras.layers.convolutional import Conv2D, MaxPooling2D 

from keras.applications import ResNet50 

import cv2 

import os 

import numpy as np 

import csv 


import matplotlib.pyplot as plt 


def shape_of_array(arr): 


array = np.array (arr) 
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return array.shape 


def get label(num): 
with open('./label.csv') as csvfile: 
reader = csv.DictReader (csvfile) 
for row in reader: 
if row['fImage'] == str(num): 


return float(row['Attractiveness label']) 


def load_image_data(filedir): 
label = [] 
image_data_list = [] 
train_image_list = os.listdir(filedir) 
# train_image_list.remove ('.DS_Store ') 
for img in train image list: 
url = os.path.join(filedir + img) 
# print url 
image = cv2.imread(url) 
image = cv2.resize(image, (200, 200)) 


image data list.append(image) 


img.num = int(img[img.find('P-')*2:img.find('.')]) 
att label - get label(img num) / 5.0 

Kprint(img num, ' ', att.label) 

label.append(att label) 


img_data = np.array(image data list) 
img_data = img data.astype('float32') 
img_data /= 255 


return img_data, label 


def main(): 
train x, train_y = load image data('./Data Collection face resize/') 


input tensor - Input(shape-(200, 200, 3 ,)) 
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base_model = ResNet5O(include top-False,weights-'imagenet ')(input_tensor) 
#base-model = ResNet50(input_tensor=input_tensor , include_top=False,weights=None) 
flat=Flatten() (base_model) 
dense128 = Dense(128, activation='relu',kernel_initializer='normal', name 
='dense128') (flat) 
output = Dense(1, name='output ') (densei28) 


model = Model(inputs=[input_tensor], outputs=[output]) 
print (model. summary ()) 


model .compile(loss='mean_squared_error', optimizer='adam', metrics=['mae' 


1) 


hist = model.fit(train x, train y, batch_size=32, validation_split=0.3, 
epochs=50 , verbose=1) 
model.evaluate(train x, train_y) 


model.save('resnet50.h5') 


if ..name.. == '. main..': 


main() 


使 用 以 上 ResNet50 网 络 finetuning 后 , 模型 训练 后 的 误差 可 以 有 显著 的 降低 ( 见 表 
4.4)。 在 多 数 情 况 下 ， 基 于 已 训练 好 的 网 络 进行 fnetuning， 都 能 显著 提高 效率 和 效果 ， 
这 是 图 片 分 类 问题 的 小 窃 门 。Keras 中 包含 了 大 部 分 效果 比较 好 的 图 像 分 类 模型 ( 见 表 
4.50 , 有 兴趣 的 读者 可 以 进行 测试 。 


表 4.4 ”人 脸 魅 力 值 打分 不 同 模 型 的 MAE 比较 


方法 MAE ( 均 方 根 误差 ) 
传统 SVR 0.3961 
两 层 CNN 0.2358 
三 层 CNN 0.2133 
五 层 CNN 0.2081 


ResNet50 0.0990 
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表 4.5 Keras 预 训练 好 的 图 像 分 类 模型 


模型 大 小 Topl 准确 率 Top5 准确 率 参数 数目 深度 
Xception 88MB 0.79 0.945 22,910,480 126 
VGG16 528MB 0.715 0.901 138,357,544 23 
VGG19 549MB 0.727 0.91 143,667,240 26 
ResNet50 99MB 0.759 0.929 25,636,712 168 
InceptionV3 92MB 0.788 0.944 23,851,784 159 
IncetionResNet V2 215MB 0.804 0.953 55,873,736 572 
MobileNet 17MB 0.665 0.871 4,253,864 88 


dA 
混合 推荐 系统 


5.1 什么 是 混合 推荐 系统 


迄今 为 止 ， 推 荐 系统 已 经 经 历 了 20 多 年 的 发 展 , 但 是 仍然 没有 人 给 出 一 个 精确 的 
定义 。 推 荐 系统 成 为 一 个 相对 独立 的 研究 方向 , 一 般 被 认为 始 于 1994 年 GroupLens WF 
究 组 推出 的 GroupLens 系统 。 该 系统 基于 协同 过 滤 (Collaborative Filtering) 完成 推荐 任 
务 , 并 对 推荐 问题 建立 了 一 个 形式 化 模型 。 该 形式 化 模型 引领 了 之 后 推荐 系统 的 发 展 方 
向 。 基于 该 形式 化 模型 , 推荐 系统 要 解决 的 问题 总 共有 两 个 , 分 别 是 预测 (Prediction) 和 
推荐 (Recommendation) o 

预测 所 解决 的 主要 问题 是 推断 User 对 Item 的 喜好 程度 , 而 推荐 则 是 根据 预测 环节 
的 计算 结果 向 用 户 推 荐 tem 推荐 系统 在 不 同 的 应 用 场景 下 完成 预测 和 推荐 任务 ， 具有 
众多 算法 ,但 是 经 过 大 量 的 实践 ， 人 们 发 现 没有 一 种 方法 可 以 独 领 风骚 ,每 种 方法 都 有 
其 局 限 性 。 

上 一 章 介绍 了 几 种 主流 的 推荐 方法 , 它们 在 推荐 时 利用 的 信息 和 采用 的 框架 各 不 相 
同 ， 在 各 自 的 领域 表现 出 来 的 效果 也 各 有 千秋 。 基 于 内 容 的 推荐 方法 依赖 Item 的 特征 
描述 ， 协 同 过滤 会 利用 User 和 Item 的 特定 类 型 的 信息 转化 生成 推荐 结果 ， 而 社交 网 
络 的 推荐 算法 则 根据 User 的 相互 影响 关系 进行 推荐 。 每 种 方法 各 有 利 次 ,没有 一 种 方 
法 利用 了 数据 的 所 有 信息 ， 因 此 ,我 们 希望 构建 一 种 混合 (Hybrid) 推荐 系统 ， 来 结合 
不 同 算法 的 优点 ， 并 克服 前 面 提 到 的 缺陷 ， 以 提高 推荐 系统 可 用 性 。 本 章 将 会 结合 特 
征 处 理 、 特 征 选择 、 常 见 的 排序 模型 等 不 同方 面 ， 向 读者 分 步骤 介绍 如 何 搭建 混合 推荐 
系统 。 
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5.1.1 ”混合 推荐 系统 的 意义 


5.1.1.1 海量 数据 推荐 


在 很 多 海量 数据 推荐 系统 中 通常 存在 三 部 分 : FER (Online) 系统 、 近 线 (Nearline) A 
统 和 离线 (Offline) 系统 。 在 线 系统 与 用 户 进行 直接 交互 ， 具有 高 性 能 高 可 用 性 的 特性 ， 
通常 利用 缓存 Cache) 系统 ， 处 理 热门 请 求 的 重复 计算 。 近 线 系统 接受 在 线 系统 的 请 
求 , 执行 比较 复杂 的 推荐 算法 , 缓存 在 线 系统 的 结果 , 并 及 时 收集 用 户 的 反馈 , 快速 调整 
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5.1 NetFlix 的 实时 推荐 系统 的 架构 图 
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推荐 结果 。 离 线 系统 利用 海量 的 用 户 行为 日 志 进行 挖掘， 进行 高 质量 的 推荐 , 通常 具有 
运算 周期 长 、 资 源 消耗 大 等 特点 。 

在 工业 应 用 中 面 对 海 量 的 用 户 和 物品 , 需要 实时 保证 线 上 的 用 户 请 求 得 到 可 用 结果 。 
这 里 存在 一 个 矛盾 , 在 线 系统 无 法 承担 资源 消耗 大 的 算法 , 而 离线 系统 实时 推荐 能 力 差 。 
比 , 需要 将 在 线 系统 一 近 线 系统 一 离线 系统 组 成 混合 系统 来 保证 高 质量 的 推荐 。 

NetFlix 公司 曾 花 重 金 举 办 推荐 系统 竞赛 ,并 公开 其 后 人 台 推 荐 系统 的 架构 (图 5.1)， 
该 系统 为 三 段 式 混合 推荐 系统 。 

离线 系统 是 传统 的 个 性 化 推荐 系统 的 主体 , 定期 利用 大 量 历史 操作 日 志 进 行 批 处 理 
运算 , 然后 进行 特征 构造 及 选取 , 最 终 建立 模型 并 更 新 。 

近 线 系统 ， 是 将 用 户 产 生 的 事件 , 利用 流 式 计算 得 到 中 间 结 果 ， 这 些 中 间 结 果 一 方 
面 发 送 给 在 线 部 分 用 于 实时 更 新 推荐 模型 ， 另 一 方面 将 中 间 结 果 存 储 起 来 ,， 例 如， 存储 
在 Memcached, Cassandra, MySQL 等 可 以 快速 查询 的 存储 中 作为 备份 。 在 NetFlix 的 系 
统 中 , 他 们 的 流 式 计算 是 通过 一 个 叫做 NetFlix.Manhattan 的 框架 来 实现 的 , 它 是 一 个 类 
似 于 Storm 的 实时 流 式 计算 框架 。 

然后 是 在 线 部 分 。 这 一 部 分 利用 离线 部 分 的 主体 模型 并 考虑 近 线 部 分 的 实时 数据 对 
模型 进行 增 量 更 新 , 然后 得 到 实时 的 推荐 模型 , 进而 根据 用 户 的 行为 来 对 用 户 进行 实时 
推荐 。 

近 线 和 在 线 部 分 将 会 在 后 面 的 推荐 系统 架构 章节 中 进一步 进行 介绍 。 


5.1.1.2 高 质量 推荐 


为 了 提升 推荐 系统 的 推荐 精度 以 及 推荐 多 样 性 , 工业 应 用 中 通常 会 对 推荐 系统 进行 
特征 、 模型 等 多 层面 的 融合 来 构建 混合 推荐 系统 。 

YouTube 所 使 用 的 推荐 系统 是 现在 业界 规模 最 大 的 、 最 先进 的 推荐 系统 之 一 。You- 
Tube 在 2016 年 第 十 届 ACM RecSys 上 介绍 了 其 利用 深度 学 习 的 混合 推荐 算法 带 来 了 系 
统 性 能 的 巨大 提升 该 算法 会 在 下 一 章 “ 深 度 学 习 在 推荐 系统 中 的 应 用 ”中 详细 进行 介 
绍 ,该 系统 主要 分 为 两 个 部 分 : 候选 列表 生成 (Matching) 和 精致 排序 (Ranking)。Matching 
阶段 先 “ 粗 糙 ” 召回 候选 集 ，Ranking 阶段 对 Matching 后 的 结果 采用 更 精细 的 特征 计算 
排序 分 数 , 并 进行 最 终 排序 。 


(D Deep Neural Networks for YouTube Recommendations. Paul Covington Google, Mountain View, CA, 
USA 
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5.1.2 ”混合 推荐 系统 的 算法 分 类 


前 一 节 通 过 两 个 工业 级 典型 应 用 介绍 了 混合 推荐 系统 的 意义 , 本 节 将 对 目前 的 混合 
推荐 系统 进行 简单 分 类 ， 从 系统 、 算 法 、 结 果 、 处 理 流程 等 不 同 的 角度 来 分 析 不 同 混合 
推荐 系统 。 

从 系统 架构 上 看 ,常见 的 架构 是 在 线 -离线 - 近 线 三 段 混 合 系统 ， 各 系统 一 般 分 别 负 
责 热 门 请 求 、 短 期 计算 和 长 期 推荐 计算 。 在 上 一 节 中 已 经 做 了 相关 介绍 , 通过 多 段 的 泥 
合 推 荐 可 以 达到 可 靠 的 推荐 结果 。 

从 混合 技术 上 看 ，Robin Burke 在 其 不 同 混合 推荐 算法 设计 方案 的 调研 报告 中 将 其 
DA: 加 权 型 、 切 换 型 、 交 叉 型 、 特 征 组 合 型 、 瀑 布 型 、 特 征 递 增 型 、 元 层次 型 。 下 面 将 
对 这 几 种 方式 分 别 进行 介绍 。 


5.1.2.1 加 权 型 混合 推荐 


加 权 混 合 推荐 即 利 用 不 同 的 推荐 算法 生成 的 候选 结果 ， 进行 进一步 的 加 权 组 合 
(Ensemble) ,生成 最 终 的 推荐 排序 结果 。 例如， 最 简单 的 组 合 是 将 预测 分 数 进行 线性 加 
权 。P-Tango 系统 利用 了 这 种 混合 推荐 , 初始 化 时 给 基于 内 容 和 协同 过 滤 推 荐 算法 同样 
的 权重 , 根据 用 户 的 评分 反馈 进一步 调整 算法 的 权重 。 Pazzani 提出 的 混合 推荐 系统 未 使 
数值 评分 进行 加 权 ， 而 是 利用 各 个 推荐 方法 对 数据 结果 进行 投票 , 利用 投票 结果 得 到 
最 终 的 输出 。 

加 权 混 合 推荐 系统 的 好 处 是 可 以 利用 简单 的 方式 对 不 同 的 推荐 结果 进行 组 合 , 提高 
推荐 精度 ,也 可 以 根据 用 户 的 反馈 进行 方便 的 调整 。 但 是 在 数据 稀疏 的 情况 下 , 相关 的 
推荐 方法 无 法 获得 较 好 的 结果 ,该 系统 往往 不 能 取得 较 高 的 提升 。 同时， 由 于 进行 多 个 
方法 的 计算 , 系统 复杂 度 和 运算 负载 都 较 高 。 在 工业 界 实际 系统 中 ,往往 采用 一 些 相对 
简单 的 方案 。 


n 


5.12.2 切换 型 混合 推荐 


切换 型 推荐 技术 是 根据 问题 的 背景 和 实际 情况 来 使 用 不 同 的 推荐 技术 , 通常 需要 一 
个 权威 者 根据 用 户 的 记录 或 者 推荐 结果 的 质量 来 决定 在 哪 种 情况 下 应 用 哪 种 推荐 系统 。 
例如 ，DailyLearner 系统 使 用 基于 内 容 和 基于 协同 过 滤 的 切换 混合 推荐 ,系统 首先 使 用 
基于 内 容 的 推荐 技术 ,如 果 不 能 产生 高 可 信和 度 的 推荐 , 然后 再 尝试 使 用 协同 过 滤 技 术 ; 
NewsDude 系统 则 首先 基于 内 容 进 行 最 近邻 推荐 ， 如果 找 不 到 相关 报道 ,就 引入 协同 过 
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滤 系 统 进 行 跨 类 型 推荐 。 可 以 看 出 ,不 同 的 系统 往往 采用 不 同 的 切换 策略 ， 切 换 策 略 的 
优化 为 这 种 方法 的 关键 因素 。 由 于 不 同 算法 的 打分 结果 标准 不 一 致 , 所 以 需要 根据 情况 
进行 转化 , 这 也 会 增加 算法 的 复杂 度 。 


5.1.2.3 交叉 型 混合 推荐 


交叉 型 推荐 技术 的 主要 动机 是 保证 最 终 推荐 结果 的 多 样 性 。 因 为 不 同 用 户 对 同一 件 
物品 的 着 眼 点 往往 各 不 相同 , 而 不 同 的 推荐 算法 , 生成 的 结果 往往 代表 了 一 类 不 同 的 观 
察 角度 所 生成 的 结果 。 交 又 型 推荐 技术 将 不 同 推荐 算法 的 生成 结果 , 按照 一 定 的 配 比 组 
合 在 一 起 , 打包 后 集中 呈现 给 用 户 。 比 如 , 可 以 构建 这 样 一 个 基于 Web 日 志和 缓存 数据 
挖掘 的 个 性 化 推荐 系统 ， 该 系统 首先 通过 挖掘 Web 日 志和 缓存 数据 构建 用 户 多 方面 的 
兴趣 模式 ， 然 后 根据 目标 用 户 的 短期 访问 历史 与 用 户 兴 趣 模式 进行 匹配 , 采用 基于 内 容 
的 过 滤 算 法 ， 向 用 户 推 荐 相似 网 页 同时, 通过 对 多 用 户 间 的 协同 过 滤 , 为 目标 用 户 预 
测 下 一 步 最 有 可 能 的 访问 页 面 , 并 根据 得 分 对 页 面 进行 排序 ， 附 在 现行 用 户 请 求 访问 页 
面 后 推荐 给 用 户 。 

交叉 型 推荐 技术 需要 注意 的 问题 是 结果 组 合 时 的 冲突 解决 问题 , 通常 会 设置 一 些 额 
外 的 约束 条 件 来 处 理 结果 的 组 合 展 示 问 题 。 


5.1.2.4 特征 组 合 型 混合 推荐 


特征 组 合 是 将 来 自 不 同 推荐 数据 源 的 特征 组 合 ， 由 一 种 单一 的 推荐 技术 使 用 。 数 据 
是 推荐 系统 的 基础 ,一 个 完善 的 推荐 系统 ,其 数据 来 源 也 是 多 种 多 样 的 。 从 这 些 数 据 来 
源 中 我 们 可 以 抽取 出 不 同 的 基础 特征 。 以 用 户 兴 趣 模型 为 例 , 我 们 既 可 以 从 用 户 的 实际 
购买 行为 中 ,挖掘 出 用 户 的 “ 显 式 ”兴趣 ， 也 可 以 从 用 户 的 点 击 行为 中 ,挖掘 用 户 “ 隐 
A” 兴趣; 另外 从 用 户 分 类 、 人 口 统计 学 分 析 中 , 也 可 以 计算 出 用 户 兴趣 ;, 如 果 有 用 户 的 
社交 网 络 , 那么 也 可 以 了 解 周围 用 户 对 该 用 户 兴趣 的 投射 , 等 等 。 而且 从 物品 Atem) 的 
角度 来 看 , 也 可 以 挖掘 出 不 同 的 特征 。 

不 同 的 基础 特征 可 以 预先 进行 组 合 或 合并 , 为 后 续 的 推荐 算法 所 使 用 。 特征 组 合 的 
混合 方式 使 得 系统 不 再 仅仅 考虑 单一 的 数据 源 〈 如 仅 用 用 户 评分 表 )， 所 以 它 降低 了 用 
户 对 项 目 评分 数量 的 敏感 度 。 


5.1.2.5 瀑布 型 混合 推荐 
瀑布 型 的 混合 技术 采用 了 过 滤 的 设计 思想 , 将 不 同 的 推荐 算法 视 为 不 同 粒度 的 过 滤 
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器 , 尤其 是 面 对 待 推荐 对 象 (Item) 和 所 需 的 推荐 结果 数量 相差 极为 悬殊 时 , 往往 非常 适 
用 。 例如 ,EntreeC 餐馆 推荐 系统 ,首先 利用 知识 来 基于 用 户 已 有 的 兴趣 来 进行 推荐 , 后 
面 利用 协同 过 滤 再 对 上 面 生 成 的 推荐 进行 排序 。 

设计 瀑布 型 混合 系统 中 , 通常 会 将 运算 速度 快 、 区 分 度 低 的 算法 排 在 前 列 ， 逐 步 过 
渡 为 重量 级 的 算法 , 这 样 的 优点 是 充分 运用 不 同 算法 的 区 分 度 , 让 宝贵 的 计算 资源 集中 
在 少量 较 高 候选 结果 的 运算 上 。 


5.12.6 ”特征 递增 型 混合 推荐 


特征 递增 型 混合 技术 , 即将 前 一 个 推荐 方法 的 输出 作为 后 一 个 推荐 方法 的 输入 。 这 
种 方法 上 一 级 产生 的 并 不 是 直接 的 推荐 结果 ， 而 是 为 下 一 级 的 推荐 提供 某 些 特征 。 一 
个 典型 的 例子 是 将 聚 类 分 析 环 节 作为 关联 规则 挖掘 环节 的 预 处 理 : 聚 类 所 提供 的 类 别 特 
4E. 被 用 于 关联 规则 挖掘 中 ， 比 如 对 每 个 聚 类 分 别 进行 关联 规则 挖掘 。 

与 瀑布 型 不 同 的 是 , 第 二 种 推荐 方法 并 没有 使 用 第 一 种 产生 的 任何 等 级 排列 的 输出 ， 
其 两 种 推荐 方法 的 结果 以 一 种 优化 的 方式 进行 混合 。 
5.1.2.7 元 层次 型 混合 推荐 

元 层次 型 混合 将 不 同 的 推荐 模型 在 模型 层面 上 进行 深度 的 融合 。 比 如 ，User-Based 
方法 和 Item-Based 方法 的 一 种 组 合 方式 是 , 先 求 目标 物品 的 相似 物品 集 , 然后 删 掉 所 有 
其 他 的 物品 (在 矩阵 中 对 应 的 是 列 向 量 ),， 在 目标 物品 的 相似 物品 集 上 采用 User-Based 
协同 过 滤 算 法 。 这 种 基于 相似 物品 的 邻居 用 户 协 同 推荐 方法 , 能 很 好 地 处 理 用 户 多 兴趣 
下 的 个 性 化 推荐 问题 , 尤其 是 候选 推荐 物品 的 内 容 属 性 相差 很 大 的 时 候 , 该 方法 性 能 会 
更 好 。 

与 特征 递增 型 的 不 同 在 于 : 在 特征 递增 型 中 使 用 一 个 学 习 模 型 产生 某 些 特征 作为 第 
二 种 算法 的 输入 , 而 在 元 层次 型 中 , 整个 模型 都 会 作为 输入 。 

上 述 类 型 的 混合 方式 可 以 按照 处 理 流程 统一 分 为 三 类 。 

(1) 整体 式 混合 推荐 系统 。 整 体式 混合 推荐 系统 的 实现 方法 是 通过 对 算法 进行 内 部 
调整 ， 可 以 利用 不 同类 型 的 输入 数据 ， 并 得 到 可 靠 的 推荐 输出 ， 上述 的 特征 组 合 型 混合 
推荐 、 特 征 递增 型 混合 推荐 和 元 层次 型 混合 推荐 属于 此 种 类 型 。 

(2) 并 行 式 混 合 推荐 系统 。 并 行 式 混合 推 荐 系统 利用 混合 机 制 将 不 同 推荐 系统 的 
结果 进行 集成 ， 上 述 的 加 权 型 混合 推荐 、 切 换 型 混合 推荐 和 交叉 型 混合 推荐 属于 此 种 类 
型 。 
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o zz o 


图 5.2 整体 式 混合 推荐 系统 


推荐 算法 1 


推荐 算法 n 


图 5.3 并 行 式 混合 推荐 系统 


(3) 流水 线 式 混合 推荐 系统 。 流水线 式 混合 推荐 系统 利用 多 个 流程 顺序 作用 产生 推 
荐 结果 ,上 述 的 瀑布 型 混合 推荐 可 以 归 为 此 种 类 型 。 


图 5.4 流水 线 式 混合 推荐 系统 


5.2 ”推荐 系统 特征 处 理 方法 


“数据 与 特征 决定 了 模型 的 上 限 , 而 模型 算法 则 为 逼近 这 个 上 限 ”, 这 句 话 是 推荐 系 
统 工程 师 的 共识 。 特征 的 本 质 为 一 项 工程 活动 , 目的 是 最 大 限度 地 从 原始 数据 中 提取 特 
征 以 供 算 法 模型 使 用 。 在 实际 构建 推荐 系统 过 程 中 , 可 以 直接 用 于 模型 算法 的 特征 并 不 
多 , 能 否 从 原始 数据 中 挖掘 出 来 有 用 的 特征 将 会 直接 决定 推荐 系统 的 质量 对 于 特征 一 
般 的 处 理 流程 为 特征 获取 、 特 征 清洗 、 特 征 处 理 和 特征 监控 , 其 中 最 核心 部 分 为 特征 处 


126 | 推荐 系统 与 深度 学 习 


理 部 分 , 本 节 中 将 会 对 特征 处 理 进 行 详细 介绍 。 

由 于 原始 数据 中 的 特征 通常 无 法 在 算法 模型 中 直接 使 用 ,需要 经 过 特征 转化 与 特征 
选择 后 放 入 模型 。 特 征 转化 包含 对 原始 特征 的 各 种 变换 , 更 好 地 表达 原始 数据 的 内 在 规 
律 , 便于 模型 算法 进行 训练 ,而 特征 选择 则 选择 提炼 对 模型 表达 有 用 的 特征 , 希望 建立 
更 灵活 、 更 简单 的 模型 。 


5.2.1 ”特征 处 理 方法 


由 于 数据 源 包 含 不 同类 型 的 变量 , 不 同 的 变量 往往 处 理 方法 不 同 ， 下 面 将 针对 不 同 
的 变量 类 型 对 特征 处 理 方法 进行 介绍 。 
5.2.1.1 数值 特征 处 理 

方法 一 : 无 量 纲 处 理 

无 量 纲 化 使 不 同 规格 的 数据 转换 到 同一 规格 。 常见 的 无 量 纲 化 方法 有 标准 化 和 区 间 
缩放 法 。 标 准 化 的 前 提 是 特征 值 服 从 正 态 分 布 ， 标准 化 后 ， 其 转换 成 标准 正 态 分 布 。 区 
间 缩 放 法 利用 了 边界 值 信息 , 将 特征 的 取 值 区 间 缩 放 到 某 个 特定 的 范围 , 例如 [0, 1] 等 。 

标准 化 变换 后 各 维特 征 的 均值 为 0, 方差 为 1， 也 叫做 Z-Score 规范 化 , 计算 方式 如 
FA, 为 特征 值 减 去 均值 , 除 以 标准 差 。 


(5-1) 


使 用 Python 处 理 的 代码 如 下 : 


// 标 准 化 
import numpy as np 


from sklearn import preprocessing 


x = np.array([[ 1., -1., 2.], 
[2., 0., 0.1, 
([0., 1., 91.00) 
x.scaled = preprocessing.scale(x) 


print (x_scaled) 


运行 后 , 可 以 看 到 结果 : 
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[[ 0. -1.22474487  1.33630621] 
[ 1.22474487 0. -0.26726124] 
[-1.22474487 1.22474487 -1.06904497]] 


而 区 间 缩 放 法 又 被 称 为 最 大 一 最 小 标准 化 ,最 大 一 最 小 标准 化 是 对 原始 数据 进行 线 
性 变换 , 变换 到 [0,1] 区 间 。 计 算 公 式 如 下 : 


FM a — Min 
~ Max — Min 


(5-2) 
使 用 Python 处 理 的 代码 如 下 : 


// 标 准 化 


import numpy as np 


from sklearn import preprocessing 


x = np.array([[ 1., -1., 2.], 
(2:5. 07 0615 
E Oss Leg 1.1] 
x.max min scaled = preprocessing.MinMaxScaler().fit transform(x) 


print(x max min scaled) 


运行 后 , 可 以 看 到 结果 : 


[t 0.5 0. 1. 1 
Lá; 0.5 0.33333333] 
[ 0. Lm 0. 1) 


除了 最 大 -最 小 标准 化 外 , 也 可 以 使 用 二 次 核 进行 标准 化 , 使 用 Python 的 处 理 方法 如 下 : 
使 用 二 次 型 规范 化 的 代码 , 参考 如 下 : 


import numpy as np 


from sklearn import preprocessing 


x = np.array([[ 1., -1., 2.], 
[2., 0., 0.], 
LO: den i 
x.normalize -preprocessing.normalize(x, norm-'12') 


print (x normalize) 


运行 后 , 可 以 看 到 结果 : 
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[[ 0.40824829 -0.40824829 0.81649658] 
Ca. 0. 0. ] 
[ 0. 0.70710678 -0.70710678]] 


方法 二 : 非 线性 变换 

很 多 情况 下 , 对 特征 进行 非 线 性 变换 来 增加 模型 复杂 度 也 是 一 个 有 效 的 手段 。 常用 
的 变换 有 基于 多 项 式 、 基 于 指数 函数 和 基于 对 数 函数 的 变换 等 。 

下 面 利用 对 数 变换 来 说 明 , 一 般 对 数 变换 后 特征 分 布 更 平稳 。 对 数 变 换 能 够 很 好 地 
解决 随 着 自 变 量 的 增加 ， 因 变量 的 方差 增 大 的 问题 。 另外 一 方面 , 将 非 线性 的 数据 通过 
对 数 变 换 ， 转 换 为 线性 数据 , 便于 使 用 线性 模型 进行 学 习 。 关 于 这 一 点 ,可 以 类 比 一 下 
SVM, 比如 SVM 对 于 线性 不 可 分 的 数据 , 先 对 数据 进行 核 函数 映射 , 将 低 维 的 数据 映射 
到 高 维 空间 , 使 数据 在 投影 后 的 高 维 空间 中 线性 可 分 。 

方法 三 : 离散 化 

有 时 数值 型 特征 根据 业务 以 及 其 代表 的 含义 需要 进行 离散 化 , 离散 化 拥有 以 下 好 处 : 
离散 化 后 的 特征 对 异常 数据 有 很 强 的 鲁 棒 性 ,比如 一 个 特征 是 年 龄 >30 为 1, 否则 为 0。 
如 果 特 征 没有 经 过 离散 化 ,一 个 异常 数据 “年 龄 100 岁 ” 会 给 模型 造成 很 大 的 干扰 ; 特 
征 离散 化 后 可 以 进行 特征 交叉 , 特征 内 积 乘 法 运算 速度 快 ， 进一步 引入 非 线 性 , 提升 表 
达能 力 , 计算 结果 方便 存储 , 容易 扩展 ; 特征 离散 化 后 , 模型 会 更 稳定 , 比如 如 果 对 用 户 
年 龄 离散 化 ,20~30 作为 一 个 区 间 , 不 会 因为 一 个 用 户 年 龄 长 了 一 岁 就 变 成 一 个 完全 不 
同 的 人 。 但 是 处 于 区 间 相 邻 处 的 样本 会 刚好 相反 , 所 以 如 何 划分 区 间 也 非常 重要 ,通常 
按照 是 否 使 用 标签 信息 可 以 分 为 无 监督 离散 化 和 有 监督 离散 化 。 

无 监督 离散 化 : 无 监督 的 离散 化 方法 通常 为 对 特征 进行 装 箱 ， 分 为 等 宽度 离散 化 方 
法 和 等 频 度 离散 化 方法 。 等 宽度 离散 方法 ， 就 是 根据 箱 的 个 数 得 出 固定 的 宽度 ， 使 得 分 
到 每 个 箱 中 的 数据 的 宽度 是 相等 的 。 等 频 分 箱 法 是 使 得 分 到 每 个 箱 中 的 数据 的 个 数 是 相 
同 的 。 在 等 宽 或 等 频 划 分 后 , 可 用 箱 中 的 中 位 数 或 者 平均 值 蔡 换 箱 中 的 每 个 值 ,实现 特 
征 的 离散 化 。 这 两 种 方法 需要 指定 区 间 的 个 数 , 同时 等 宽度 离散 化 方法 对 异常 点 较为 敏 
感 ， 倾 向 于 把 特征 不 均匀 地 分 到 各 个 箱 中 ,这样 会 破坏 特征 的 决策 能 力 。 等 频 度 的 离散 
化 方法 虽然 会 避免 上 述 问题 却 可 能 会 将 具有 相同 标签 的 相同 特征 值 分 入 不 同 的 箱 中 , 同 
样 会 造成 决策 能 力 下 降 。 

基于 聚 类 分 析 的 离散 化 方法 也 是 一 种 无 监督 的 离散 化 方法 。 此 种 方法 包含 两 个 步骤 ， 
首先 是 将 某 特征 的 值 用 聚 类 算法 (如 K-means 算法 ) 通过 考虑 特征 值 的 分 布 以 及 数据 点 
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PIAS PERU Ay EAS. 然后 将 聚 类 得 到 的 簇 进行 再 处 理 , 处 理 方法 可 分 为 自 顶 向 下 的 分 裂 
策略 和 自 底 向 上 的 合并 策略 。 分裂 策 略 是 将 每 一 个 初始 簇 进一步 分 裂 为 若干 子 驴 , 合并 
策略 则 是 通过 反复 地 对 邻近 簇 进行 合并 。 聚 类 分 析 的 离散 化 方法 通常 也 需要 用 户 指定 簇 
的 个 数 ， 从 而 决定 离散 产生 的 区 间 数 。 

对 于 实际 数据 的 离散 化 , 具体 可 以 根据 业务 的 规律 进行 相应 的 调整 , 利用 自然 区 间 
进行 相应 的 离散 。 

有 监督 离散 化 : 有 监督 的 离散 化 方法 相 较 无 监督 的 离散 化 方法 拥有 更 多 的 表现 形式 
及 处 理 方式 ， 但 目前 比较 常用 的 方法 为 基于 先 的 离散 化 方法 和 基于 卡 方 的 离散 化 方 
ik. 


HT RE SR IE FE ARR SB BIIRHIE I DE ESE s PET A, 故 将 这 种 思想 
扩展 到 更 通常 的 特征 离散 化 中 , 通过 反复 地 分 裂 区 间 直 到 满足 停止 的 条 件 。 由 此 产生 了 
基于 焙 的 离散 化 方法 。 业 是 最 常用 的 离散 化 度量 之 一 。 基 于 箭 的 离散 化 方法 使 用 类 分 布 
信息 计算 和 确定 分 裂 点 ， 是 一 种 有 监督 的 、 自 顶 向 下 的 分 裂 技术 。ID3 和 C4.5 是 两 种 
常用 的 使 用 灼 度量 准则 来 建立 决策 树 的 算法 ， 基 于 这 两 种 方法 进行 离散 化 特征 几乎 
与 建立 决策 树 的 方法 一 致 。 在 上 述 方法 上 又 产生 了 MDLP 方法 〈 最 小 描述 距离 长 度 法 
则 ), MDLP 的 思想 是 假设 断 点 是 类 的 分 界 , 依 此 得 到 许多 小 的 区 间 , 每 个 区 间 中 的 实例 
的 类 标签 都 是 一 样 的 ， 然 后 再 应 用 MDLP 准则 衡量 类 的 分 界 点 中 哪些 是 符合 要 求 可 以 
作为 端点 , 哪些 不 是 端点 需要 将 相 邻 区 间 进 行 合并 。 由 此 选 出 必要 的 断 点 , 对 整个 数据 
集 进行 离散 化 处 理 。 

下 面 将 利用 R 的 discretization 包 以 R 自 带 的 数据 集 iris 为 例 进 行 MDLP 方法 效果 
展示 。 


//MDLP 特 征 离散 化 
library (discretization) 
data(iris) 


mdlp(iris)$Disc.data 


以 数据 集 iris 为 例 进 行 MDLP 方法 效果 展示 , 图 5.5 左边 为 原始 特征 , 右边 为 MDLP 
方法 离散 后 的 数据 。 

不 同 于 基于 烂 的 离散 化 方法 , 基于 卡 方 的 离散 化 方法 是 采用 自 底 向 上 的 策略 ,首先 
将 数据 取 值 范围 内 的 所 有 数据 值 列 为 一 个 单独 的 区 间 , 再 递归 找 出 最 佳 邻近 可 合并 的 区 
间 , 然后 合并 它们 , 进而 形成 较 大 的 区 间 。 在 判定 最 佳 邻 近 可 合并 的 区 间 时 , 会 用 到 卡 方 
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统计 量 来 检测 两 个 对 象 间 的 相关 度 。 最 常用 的 基于 卡 方 的 离散 化 方法 是 ChiMerge 方法 ， 


它 的 过 程 如 下 : 首先 将 数值 特征 的 每 个 不 同 值 看 作 一 个 区 间 , 对 每 对 相 邻 
统计 量 , 将 其 与 由 给 定 的 置信 水 平 确定 的 闵 值 进行 比较 , 高 于 闵 值 则 把 相 邻 


区 间 计 算 卡 方 
区 间 进 行 合 


并 , 因为 高 的 卡 方 统计 量 表示 这 两 个 相 邻 区 间 具 有 相似 的 类 分 布 ， 而 具有 相似 类 分 布 的 


区 间 应 当 进 行 合并 成 为 一 个 区 间 。 合并 的 过 程 递 归 地 进行 , 直至 计算 得 到 的 卡 方 统计 量 


不 再 大 于 阀 值 ， 也 就 是 说 ， 找 不 到 相 邻 的 区 间 可 以 进行 合并 ， 则 离散 化 过 程 终止 ， 得 到 


最 终 的 离散 化 结果 。 


Sepallength Sepal Width Petallengih PetalWidth Speces 


1 51 35 
2 ag I 
3 AT 32 
4 46 x1 
5 50 34 
6 54 as 
? 46 Mu 
a 50 34 
9 44 23 
10 49 31 
E 54 x 
n a" x4 
n 48 35 
14 43 39 
15 58 ae 


14 
14 
13 
1s 
14 
17 
E 
us 
14 


&2 setosa 
&2 setosa 
&2 setosa 
&2 setosa 
02 setosa 
B4 setosa 
$3 setosa 
&2 setosa 
&2 setosa 
&i setosa 
0.2 setosa 
&2 setosa 
hl setosa 
&i setosa 
&2 setosa 


1 
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图 5.5 MDLP 特征 离散 化 
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1 setosa 
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setosa 
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下 面 将 利用 R 的 discretization 包 以 R 自 带 的 数据 集 iris 为 例 进行 ChiMerge 方法 效 


果 展 示 。 


// ChiMerge 特征 离散 化 


ibrary(discretization) 


#--Discretization using the ChiMerge method 


data(iris) 


disc-chiM(iris,alpha-0.05) #-- 0.05 significance level 


#--discretized data matrix 


bb = disc$Disc.data 


第 5 章 混合 推荐 系统 | 131 


针对 数据 集 iris 进行 ChiMerge 方法 效果 展示 ， 图 5.6 左边 为 原始 特征 ， 右 边 为 
ChiMerge 方法 离散 后 的 数据 。 


Sepallength $epaLWidth Petallengih Petal Width Species Sepallength SepalWidth PetalLength PetalWidth Species 
1 si 35 14 82 setosa 1 1 3 1 setosa 
2 a3 I 14 42 setosa 2 1 2 1 setosa 
3 at 32 13 42 stor 3 1 2 1 setosa 
4 45 31 15 92 setosa 4 1 2 1 setosa 
5 5a 34 14 82 setosa 5 1 3 1 setosa 
6 4 35 E 9A setos 6 1 3 1 setosa 
7 46 34 14 43 setosa 7 3 1 setoss 
8 50 34 L 92 setora ' 1 3 1 1 setosa 
9 44 3 14 92 setosa 9 1 1 1 setosa 
10 4s a2 15 51 setosa 1 1 2 1 1 setosa 
1 4 3 1s 82 setosa u 1 3 1 1 setosa 
R 4a x4 16 42 setor 2 1 , 1 1| seton 
n 48 34 14 hl setosa D 1 2 1 1| setese 
“4 43 38 11 1 setosa n 1 1 1 1 setos 
15 55 ao 12 82 set 5 ) ) 1 1| setese 


图 5.6 ChiMerge 特征 离散 化 


5.2.1.2 离散 特征 处 理 

方法 一 : One-Hot 编码 

在 实际 的 推荐 系统 中 , 很 多 特征 为 类 别 属性 型 特征 ,通常 会 利用 One-Hot 编码 将 这 
些 特 征 进行 编码 。 如 果 一 个 特征 有 m 个 可 能 值 ， 那么 通过 One-Hot 编码 后 就 变 成 了 m 
个 二 元 特征 , 并 且 这 些 特 征 互 斥 。One-Hot 编码 可 以 将 离散 特征 的 取 值 扩展 到 欧式 空间 ， 
离散 特征 的 某 个 取 值 就 是 对 应 欧式 空间 的 某 个 点 , 可 以 方便 在 学 习 算法 中 进行 相似 度 等 
计算 , 并 且 可 以 稀疏 表示 , 减少 存储 , 同时 可 以 一 定 程度 上 起 到 扩充 特征 的 作用 。 

使 用 One-hot 处 理 的 参考 代码 如 下 : 


//One-Hot 


import numpy as np 


from sklearn import preprocessing 


one_hot_enc= preprocessing. OneHotEncoder() 
one hot enc.fit([[1,1,2], [0, 1, 0], [0, 2, 1], [1, 0, 3]]) 
after_one_hot = one hot enc.transform ([[O, 1, 3]]).toarray O 


print(after one hot) 
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方法 二 : 特征 哈 希 

特征 哈 希 法 的 目标 是 把 原始 的 高 维特 征 向 量 压缩 成 较 低 维特 征 向 量 , 且 尽 量 不 损失 
原始 特征 的 表达 能 力 , 是 一 种 快速 且 很 节省 空间 的 特征 向 量化 方法 。 在 推荐 系统 中 会 存 
在 很 多 例如 ID 类 型 特征 (当然 也 可 以 利用 embedding 方法 ,但 哈 希 方法 更 节约 资源 )， 
利用 特征 哈 希 , 可 以 避免 生成 极度 稀疏 的 数据 , 但 是 可 能 会 引发 碰撞 , 碰撞 可 能 会 降低 
结果 的 准确 性 ， 也 可 能 会 提升 结果 的 准确 性 , 一 般 利用 另外 一 个 函数 解决 碰撞 。 其 一 般 
描述 为 ,设计 一 个 函数 v = h(x), 能 够 将 d 维度 向 量 r = (z(1),z(2),…, z(d)) 转化 成 
m 维度 的 新 向 量 v 这 里 的 m 可 以 大 于 也 可 以 小 于 de 通常 使 用 方法 为 利用 哈 希 函数 将 
1) 映射 到 v(h(1)), 将 (d) 映射 到 v(h(d))。Hash 函数 能 够 将 任意 输入 转换 到 一 个 固定 
范围 的 整数 输出 。 下 面 利用 文本 对 此 进行 说 明 , 可 以 看 到 程序 将 句子 转化 为 一 个 固定 维 
度 的 向 量 , 同样 ID 类 型 的 特征 也 可 以 利用 同样 的 方法 进行 处 理 ， 将 每 一 个 单词 对 应 为 
—4. ID. 

使 用 特征 hash 的 参考 代码 如 下 : 


T 


一 


//hash-track 
def hashing vectorizer(s, N): 
x = [0 for i in xrange(N)] 
for f in s.split(): 
h = hash(f) 
x[h 4 N] += 1 
return x 


print hashing vectorizer('make a hash feature', 3) 


方法 三 : 时 间 特 征 处 理 

在 推荐 系统 中 通常 会 包含 很 多 时 间 相 关 的 特征 , 如 何 有 效 地 挖掘 时 间 相 关 特 征 也 会 
很 大 程度 上 影响 推荐 的 效果 。 通常 方案 是 按照 业务 逻辑 以 及 业务 目的 进行 相关 特征 的 处 
JE, Christ, M 等 提出 了 一 种 层次 化 处 理 时 间 特 征 的 方案 , 如 图 5.7 所 示 。 其 中 包含 了 时 
间 窗 口 统计 特征 : 最 大 、 最小、 均值、 分 位 数 , 并 利用 标签 相关 性 对 特征 进行 选择 。 下 面 
简单 介绍 利用 Python 的 tsfresh 工具 对 Robot Execution Failures 数据 集 进行 特征 提取 ， 
代码 参考 如 下 : 


第 5 章 混合 推荐 系统 | 133 


Time series type 1 Time series type 2 Time series type n 


"m 
ip LU 


图 5.7 层次 化 时 间 按 序列 特征 


Sample 1 


Sample m 


Benjamini 
Yekutieli 
procedure 


un un 

| i. » 
5 E 
B = 


from tsfresh.examples.robot execution failures import 
download.robot execution failures, V 
load_robot_execution_failures 
download_robot_execution_failures () 


timeseries, y = load robot execution failures() 


from tsfresh import extract features 
extracted features = extract features(timeseries, column id-"id", 


column. sort-"time") 


from tsfresh import select features 


from tsfresh.utilities.dataframe functions import impute 


impute(extracted features) 


features filtered - select features(extracted features, y) 
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5.2.2 ”特征 选择 方法 


5.2.2.1 单 变量 特征 选择 

单 变量 特征 选择 能 够 对 每 一 个 特征 进行 测试 ， 衡 量 该 特征 和 响应 变量 之 间 的 关系 ， 
根据 得 分 丢弃 不 好 的 特征 。 这 种 方法 比较 简单 , 易于 运行 , 易于 理解 , 通常 对 于 理解 数据 
有 较 好 的 效果 ， 但 其 与 设计 的 算法 模型 无 关 。 单 变量 特征 选择 方法 有 许多 改进 的 版 本 、 
变种 , 下 面 介绍 比较 常用 的 几 种 。 

方法 一 : 皮尔 森 相 关系 数 

皮尔 森 相 关系 数 是 一 种 最 简单 的 、 能 帮助 理解 特征 和 响应 变量 之 间 关系 的 方法 , 该 
方法 衡量 的 是 变量 之 间 的 线性 相关 性 , 结果 的 取 值 区 间 为 [-1, 1], -1 表示 完全 的 负 相 关 
(这 个 变量 下 降 ,， 那个 变量 就 会 上 升 ), +1 表示 完全 的 正 相 关 。0 表示 没有 线性 相关 。 皮 
尔 森 相关 系数 表示 两 个 变量 之 间 的 协 方差 与 标准 差 的 商 , 其 计算 公式 见 如 下 。 


_ BUX = nx)(Y - nv)] 
oxoy 


px,Y (5-3) 


皮尔 森 相 关系 数 计算 速度 快 、 易 于 计算 , 经 常 在 拿 到 数据 (经 过 清洗 和 特征 提取 之 后 
的 ) 之 后 第 一 时 间 就 可 以 执行 。 SciPy 的 pearsonr 方法 能 够 同时 计算 相关 系数 和 p-value。 


import numpy as np 

from scipy.stats import pearsonr 

np.random.seed(0) 

size - 300 

x = np.random.normal(0, 1, size) 

print( "Lower noise", pearsonr(x, x * np.random.normal(0, 1, size))) 


print( "Higher noise", pearsonr(x, x * np.random.normal(0, 10, size))) 


运行 后 可 以 得 到 : 


Lower noise (0.71824836862138408, 7.3240173129983507e-49) 
Higher noise (0.057964292079338155, 0.31700993885324752) 


在 这 个 例子 中 , 我 们 比较 了 变量 在 加 入 噪音 之 前 和 之 后 的 差异 。 当 噪音 比较 小 的 时 
候 , 相关 性 很 强 , p-value 很 低 。 但 皮尔 森 相 关系 数 有 一 个 明显 的 缺陷 是 , 它 只 对 线性 关 
系 敏感 。 

方法 二 : 距离 相关 系数 
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距离 相关 系数 是 为 了 克服 皮尔 森 相关 系数 的 弱点 而 产生 的 。 它 是 基于 距离 协 方差 进 
行 变量 间 相 关 性 度量 ， 它 的 一 个 优点 为 变量 的 大 小 不 是 必须 一 致 的 ， 其 计算 方法 如 
式 (5-4) 所 示 , 注意 通常 使 用 的 值 为 其 平方 根 。 


dCov(X,Y) 
((dCov?(X, X))? - (dCov?(Y, Y))3)* 


Deor(X,Y) (5-4) 


计算 相关 系数 的 参考 代码 如 下 : 


//Distance_correlation 
//Yaroslav and Satrajit on sklearn mailing list 


import numpy as np 


def dist(x, y): 
# id only 


return np.abs(x[:, None] - y) 


def d_n(x): 
d = dist(x, x) 
dn = d - d.mean(0) - d.mean(1)[:, None] + d.mean() 


return dn 


def dcov all(x, y): 
dnx = d.n(x) 


dny = d.n(y) 


denom = np.product(dnx.shape) 

dc = (dnx * dny).sum() / denom 

dvx - (dnx ** 2).sum() / denom 

dvy = (dny ** 2).sum() / denom 

dr = dc / (np.sqrt(dvx) * np.sqrt(dvy)) 


return np.sqrt(dr) 


x = np.random.uniform(-1, 1, 10000) 
dc = dcov_all(x, x ** 2) 


print (dc) 
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方法 三 : 卡 方 检验 

卡 方 检验 最 基本 的 思想 就 是 通过 观察 实际 值 与 理论 值 的 偏差 来 确定 理论 的 正确 与 否 。 
具体 做 的 时 候 常常 先 假设 两 个 变量 确实 是 独立 的 ， 然 后 观察 实际 值 与 理论 值 的 偏差 程 
BE. 如果 偏差 足够 小 ,我 们 就 认为 误差 是 很 自然 的 样本 误差 ,是 测量 手段 不 够 精确 导致 
或 者 偶然 发 生 的 , 两 者 确 确实 实 是 独立 的 , 此 时 就 接受 原 假设 ; 如 果 偏 差 大 到 一 定 程度 ， 
使 得 这 样 的 误差 不 太 可 能 是 偶然 产生 或 者 测量 不 精确 所 致 , 我 们 就 认为 两 者 实际 上 是 相 
关 的 , 即 否 定 原 假设 , 而 接受 备 择 假 设 。 


5.2.2.2 基于 模型 的 特征 选择 


单 变量 特征 选择 方法 独立 地 衡量 每 个 特征 与 响应 变量 之 间 的 关系 , 而 另 一 种 主流 的 
特征 选择 方法 是 基于 机 器 学 习 模 型 的 方法 。 

方法 一 : 逻辑 回归 和 正则 化 特征 选择 

下 面 介绍 如 用 回归 模型 的 系数 来 选择 特征 。 越 是 重要 的 特征 在 模型 中 对 应 的 系数 就 
会 越 大 ， 而 跟 输出 变量 越 是 无 关 的 特征 对 应 的 系数 就 会 越 接近 于 0。 在 噪音 不 多 的 数据 
上 ,或 者 是 数据 量 远 远大 于 特征 数 的 数据 上 ， 如 果 特 征 之 间 相 对 来 说 是 比较 独立 的 ， 那 
么 即便 是 运用 最 简单 的 线性 回归 模型 也 一 样 能 取得 非常 好 的 效果 。 

L1 正则 化 将 系数 w 的 L1 范 数 作为 惩罚 项 加 到 损失 函数 上 , 由 于 正则 项 非 零 , 这 就 
迫使 那些 弱 的 特征 所 对 应 的 系数 变 成 0。 因 此 L1 正则 化 往往 会 使 学 到 的 模型 很 稀疏 CR 
数 w 经 常 为 0), 这 个 特性 使 得 L1 正则 化 成 为 一 种 很 好 的 特征 选择 方法 。 下 面 的 例子 在 
波士顿 房价 数据 上 运行 了 Lasso. 其 中 参数 alpha 是 通过 grid search 进行 优化 的 。 


from sklearn.linear_model import Lasso 
from sklearn.preprocessing import StandardScaler 


from sklearn.datasets import load boston 


boston = load. boston() 

scaler = StandardScaler() 

X = scaler. fit_transform(boston["data"]) 
Y = boston["target"] 


names = boston["feature names"] 


lasso = Lasso(alpha=.3) 
lasso.fit(X, Y) 
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print "Lasso model: ", pretty print linear(lasso.coef., names, sort = True) 


运行 后 可 以 得 到 : 


Lasso model: -3.707 * LSTAT + 2.992 * RM + -1.757 * PTRATIO + -1.081 * 
DIS + -0.7 * NOX + 0.631 * B + 0.54 * CHAS + -0.236 * CRIM + 0.081 
* ZN + -0.0 * INDUS + -0.0 * AGE + 0.0 * RAD + -0.0 * TAX 


可 以 看 到 , 很 多 特征 的 系数 都 是 0。 如 果 继 续 增加 alpha 的 值 , 得 到 的 模型 就 会 越 来 
越 稀疏 ， 即 越 来 越 多 的 特征 系数 会 变 成 0。 

然而 , L1 正则 化 像 非 正则 化 线性 模型 一 样 也 是 不 稳定 的 , 如 果 特 征集 合 中 具有 相关 
联 的 特征 ， 当 数据 发 生 细微 变化 时 也 有 可 能 导致 很 大 的 模型 差异 。 

L2 正则 化 将 系数 向 量 的 Lo 范 数 添加 到 了 损失 函数 中 。 由 于 L2 惩罚 项 中 系数 是 二 
次 方 的 , 这 使 得 L2 和 Li 有 着 诸多 差异 , 最 明显 的 一 点 就 是 , L2 正则 化 会 让 系数 的 取 值 
变 得 平均 。 对 于 关联 特征 , 这 意味 着 他 们 能 够 获得 更 相近 的 对 应 系数 。L2 正则 化 对 于 特 
征 选 择 来 说 一 种 稳定 的 模型 , 不 像 L1 正则 化 那样 , 系数 会 因为 细微 的 数据 变化 而 波动 。 
所 以 L2 正则 化 和 L1 正则 化 提供 的 价值 是 不 同 的 , L2 正则 化 对 于 特征 理解 来 说 更 加 有 
H: 表示 能 力 强 的 特征 对 应 的 系数 是 非 零 。 

下 面 看 3 个 互相 关联 的 特征 的 例子 , 分 别 以 10 个 不 同 的 种 子 随 机 初始 化 运行 10 次 ， 
来 观察 L1 和 L2 正则 化 的 稳定 性 。 


from sklearn.linear_model import Ridge 
from sklearn.metrics import r2 score 
size - 100 


#We run the method 10 times with different random seeds 
for i in range(10): 

print "Random seed 4s" % i 

np.random.seed(seed-i) 

X_seed = np.random.normal(0, 1, size) 

Xi X_seed + np.random.normal(0, .1, size) 


X2 = X_seed + np.random.normal(0, .1, size) 


X3 X_seed + np.random.normal(0, .1, size) 
Y = X1 + X2 + X3 + np.random.normal(0, 1, size) 
X = np.array([X1, X2, X3]).T 
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lr = LinearRegression() 
lr.fit(X,Y) 
print "Linear model:", pretty print linear(lr.coef ) 
ridge - Ridge(alpha-10) 
ridge.fit(X,Y) 
print "Ridge model:", pretty print linear(ridge.coef.) 
print 
运行 后 可 以 得 到 : 
Random seed 0 Linear model: 0.728 * XO + 2.309 X1 * -0.082 * X2 Ridge model 
0.938 * XO + 1.059 * X1 + 0.877 * X2 
Random seed 1 Linear model: 1.152 * XO + 2.366 X1 * -0.599 * X2 Ridge model 
0.984 * XO + 1.068 * X1 + 0.759 * X2 
Random seed 2 Linear model: 0.697 * XO + 0.322 X1 * 2.086 * X2 Ridge model 
0.972 * XO + 0.943 * X1 + 1.085 * X2 
Random seed 3 Linear model: 0.287 * XO + 1.254 Xi + 1.491 * X2 Ridge model 
0.919 * XO + 1.005 * X1 + 1.033 * X2 
Random seed 4 Linear model: 0.187 * XO + 0.772 X1 * 2.189 * X2 Ridge model 
0.964 * XO + 0.982 * X1 + 1.098 * X2 
Random seed 5 Linear model: -1.291 * XO + 1.591 * X1 + 2.747 * X2 Ridge model 
0.758 * XO * 1.011 * X1 * 1.139 * X2 
Random seed 6 Linear model: 1.199 * XO + -0.031 * X1 + 1.915 * X2 Ridge model 
1.016 * XO * 0.89 * X1 * 1.091 * X2 
Random seed 7 Linear model: 1.474 * XO + 1.762 * X1 + -0.151 * X2 Ridge model 
1.018 * XO + 1.039 * X1 + 0.901 * X2 
Random seed 8 Linear model: 0.084 * XO + 1.88 * X1 + 1.107 * X2 Ridge model 
0.907 * XO * 1.071 * X1 * 1.008 * X2 
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Random seed 9 Linear model: 0.714 * XO + 0.776 * X1 + 1.364 * X2 Ridge model 
: 0.896 * XO + 0.903 * X1 + 0.98 * X2 


可 以 看 出 , 不 同 的 数据 上 线性 回归 得 到 的 模型 (系数 ) 相差 其 远 , 但 对 于 I2 正则 化 
模型 来 说 , 结果 中 的 系数 非常 地 稳定 , 差别 较 小 , 都 比较 接近 于 1, 能 够 反映 出 数据 的 内 
在 结构 。 

方法 二 : 随机 森林 特征 选择 

随机 森林 具有 准确 率 高 、 鲁 棒 性 好 、 易 于 使 用 等 优点 ,这 使 得 它 成 为 了 目前 最 流行 
的 机 器 学 习 算法 之 一 。 随 机 森林 提供 了 两 种 特征 选择 的 方法 : mean decrease impurity 和 
mean decrease accuracy o 


在 波士顿 房价 数据 集 上 使 用 sklearn 的 随机 森林 回归 给 出 一 个 单 变量 选择 的 例子 : 


from sklearn.cross validation import cross val score, ShuffleSplit 
from sklearn.datasets import load boston 


from sklearn.ensemble import RandomForestRegressor 


#Load boston housing dataset as an example 
boston = load. boston() 

X = boston["data"] 

Y = boston["target"] 


names - boston["feature names"] 


rf = RandomForestRegressor(n estimators 20, max depth-4) 
scores - [] 
for i in range(X.shape[1]): 
score = cross val.score(rf, X[:, i:i*1], Y, scoring="r2", 
cv=ShuffleSplit(len(X), 3, .3)) 
scores.append((round(np.mean(score), 3), names[i])) 


print sorted(scores, reverse-True) 


方法 三 : XGBoost 特征 选择 

XGBoost 为 工业 级 用 的 比较 多 的 模型 , 其 某 个 特征 的 重要 性 (feature score), 等 于 它 
被 选中 为 树 节 点 分 裂 特征 的 次 数 的 和 ， 比 如 特征 A 在 第 一 次 迭代 中 《〈 即 第 一 棵 树 ) 被 选 
中 了 1 次 去 分 裂 树 节点 , 在 第 二 次 迭代 被 选中 2 次 , 那么 最 终 特征 A 的 feature score 就 
是 1+2, 可 以 利用 其 特征 的 重要 性 对 特征 进行 选择 。 XGBoost 的 特征 选择 的 代码 如 下 : 
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import numpy as np 
import pandas as pd 
import xgboost as xgb 
import operator 


import matplotlib.pyplot as plt 


def ceate feature map(features): 
outfile - open('xgb.fmap', 'w') 
i=0 
for feat in features: 
outfile.write('{O}\t{1}\tq\n'.format(i, feat)) 
i= i + 1 


outfile.close() 


if ..name.. == '__main__': 
train = pd.read_csv("../input/train.csv") 
cat_sel = [n for n in train.columns if n.startswith('cat')] 
# 类 别 特征 数值 化 
for column in cat_sel: 


train[column] = pd.factorize(train[column].values , sort-True)[0] + 1 


params = { 
‘min_child_weight': 100, 
'eta': 0.02, 
'colsample bytree': 0.7, 
‘max_depth': 12, 
'subsample': 0.7, 


'alpha': 1, 
'gamma': 1, 
'silent': 1, 
'verbose eval': True, 
'seed': 12 
t 
rounds - 10 
y = train['loss'] 
X = train.drop(['loss', 'id'], 1) 
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xgtrain = xgb.DMatrix(X, label=y) 


bst = xgb.train(params, xgtrain, num boost round-rounds) 


features = [x for x in train.columns if x not in ['id','1oss']] 


ceate feature map(features) 


importance = bst.get_fscore(fmap='xgb.fmap') 


importance = sorted(importance.items(), key=operator .itemgetter (1)) 


df = pd.DataFrame (importance, columns=['feature', 'fscore']) 
df['fscore'] = df['fscore'] / df['fscore'].sum() 


df.to csv("../input/feat sel/feat importance.csv", index-False) 


plt.figure () 

df.plot(kind='barh', x='feature', y='fscore', legend-False, figsize 
=(6, 10)) 

plt.title('XGBoost Feature Importance ') 

plt.xlabel('relative importance ') 


plt.show() 


方法 四 : 基于 深度 学 习 的 特征 选择 
对 于 图 像 特 征 的 提取 , 深度 学 习 具 有 很 强 的 自动 特征 抽取 能 力 , 通常 抽取 其 特征 时 
将 深度 学 习 模型 的 某 一 层 当 作 图 像 的 特征 。 在 下 一 章 会 对 此 进行 具体 介绍 。 


5.3 ”常见 的 预测 模型 


5.3.1 ”基于 逻辑 回归 的 模型 


逻辑 回归 模型 是 目前 使 用 最 多 的 机 器 学 习 分 类 方法 , 在 推荐 系统 中 的 应 用 非常 广泛 ， 
数据 产品 经 理 每 天 都 在 从 事 类 似 的 工作 。 例 如 ,他 们 分 析 购买 某 类 商品 的 潜在 因素 , 日 
后 就 可 以 判断 该 类 商品 购买 的 概率 。 通 常 的 做 法 是 挑选 两 组 人 群 进行 对 比 实验 , A 组 选 
择 的 是 购买 该 商品 的 人 群 , B 组 选择 未 购买 该 商品 的 人 群 , 这 两 组 实验 人 群 具有 不 一 样 
的 用 户 画像 特征 和 行为 特征 ， 比 如 性 别 、 年 龄 、 城 市 和 历史 购买 记录 等 ,产品 经 理 经 过 
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统计 找 出 购买 某 类 商品 的 主要 因素 或 者 因素 组 合 。 例如 ,性别 女 、 年 龄 25-30 岁 、 深 圳 、 
买 过 婴儿 床 的 人 群 买 婴儿 车 的 概率 比较 高 。 然而, 随 着 近年 来 互联 网 飞速 发 展 , 渗透 到 
PC. PAD 和 手机 等 多 种 设备 中 ， 这 导致 用 户 在 互联 网 上 的 画像 和 行为 特征 数据 异常 丰 
富 ， 有 了 时 甚至 达到 千 万 级 别 。 此 时 , 通过 产品 经 理 来 分 析 购买 商品 的 潜在 因素 就 不 太 合 
适 了 ,我们 需要 依靠 机 器 学 习 方法 来 建立 用 户 行为 模型 、 商 品 推荐 模型 等 实现 产品 的 自 


动 推荐 。 逻辑 回归 模型 是 使 用 非常 广泛 的 分 类 方法 之 一 。 


假定 只 考虑 二 分 类 问题 , 给 定 训练 集合 {(z1, gni (zn,yn))}， 其 中 zi e RP 表示 第 
i 个 用 户 的 p 维特 征 , y; € (0,1) 表示 第 i 个 用 户 是 否 购买 该 商品 。 那么 模型 必定 满足 二 


项 式 分 布 : 
P(yilzi) = u(x)” (1 — u(x;)) 07 


(5-5) 


其 中 , ulzi) = 1/(1+exp(—n(2i))), n(21) = 170, 0 表示 模型 参数 (包含 该 商品 的 偏 置 项 )， 


我 们 通常 采用 最 大 似 然 估计 来 求解 : 
L= Py, ,Ynlr1,.. ,Tn;0) 
= 1 Puls 
z Iera — u(z;)) 0 
进一步 , 可 以 得 到 负 对 数 似 然 函 数 : 
L(0) = —log P(yi,--- yl, ,zn;0,b) 
= - Y (wlogu(a,) + (1— vi) log(1 — ua) 
我 们 通常 采用 随机 梯度 下 降 法 来 求 数值 解 : 
0- armin J” (yi log u(z;) + (1 — yi)log(1 — u(z;))) 


我 们 对 参数 0 得 到 
= Dole?) - wn 
IEP, gle) = 1/(1 - exp(-2) 进一步, 可 以 得 到 


9t = 8* — p(g(z1 0) — yi)zs 


(5-6) 


(5-7) 


(5-8) 


(5-9) 


(5-10) 
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其 中 0<p<1 是 步 长 参数 。 此 外 , 我 们 也 可 以 采用 批 次 梯度 下 降 。 两 者 对 比 , 随机 梯度 下 
降 更 快 靠近 到 最 小 值 但 可 能 无 法 收敛 , 而 是 一 直 在 最 小 值 周围 震 功 。 但 在 实践 中 , 随机 梯 
度 下 降 也 能 取得 不 错 的 效果 。 进一步 , 数值 求解 方法 还 有 Newton-Raphson 方法 、Quasi- 
Newton WES. 下 面 是 逻辑 回归 模型 的 代码 实现 : 


import random 
import numpy as np 
class LogisticRegression(object): 
def . init. (self, x, y, lr=0.0005, lam=0.1): 
"nn 
x: features of examples 
y: label of examples 
lr: learning rate 
lambda: penality on theta 
"nn 
self.lr = lr 
self.lam - lam 
self.theta - np.array([0.0] * (n * 1)) 
def .sigmoid(self, x): 
z 7» 1.0 / (1.0 + np.exp((-1) * x)) 
return z 
def loss .function(self): 
u = self.. sigmoid(np.dot(self.x, self.theta)) 
ci = (-1) * self.y * np.log(u) 
c2 = (1.0 - self.y) * np.log(1.0 - u) 
# compute the cross-entroy 
loss = np.average(sum(ci - c2) + 0.5 * self.lam * 
sum(self.theta[1:] ** 2)) 
return loss 
def .gradient(self, iterations): 
# m is the number of examples, p is the number of features. 
m, p = self.x.shape 
for i in xrange(0, iterations): 
u = self. .sigmoid(np.dot(self.x, self.theta)) 
diff - h theta - self.y 
for _ in xrange(0, p): 
self.theta[ ] = self.theta[ ] - self.lr * (1.0 / m) * (sum( 
diff * self.x[:, .]) + self.lam * m * self.theta[ ]) 
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cost = self. loss function() 
def run(self, iterations): 
self. gradient(iterations) 
def predict(self, X): 
preds = self. ..sigmoid(np.dot(x, self.theta)) 
np.putmask(preds, preds »- 0.5, 1.0) 
np.putmask(preds, preds < 0.5, 0.0) 


return preds 


5.3.2 ”基于 支持 向 量 机 的 模型 


20 世纪 60 年 代 Vapnik 等 人 提出 了 支持 向 量 算法 (Support Vector Algorithm). 1998 
年 John Platt 提出 Sequential minimal optimization 算法 解决 二 次 规划 问题 ， 并 发 展 出 了 
支持 向 量 机 (Support Vector Machine) 理论 , 该 算法 在 90 年 代 迅 速成 为 机 器 学 习 中 最 好 
的 分 类 算法 之 一 。 

支持 向 量 机 模型 把 训练 样本 映射 到 高 维 空间 中 , 以 使 不 同类 别 的 样本 能 被 清晰 的 超 
平面 分 割 出 来 。 而 后 ， 新 样本 继续 映射 到 相同 的 高 维 空间 ， 基 于 它 落 在 超 平 面 的 哪 一 边 
预测 样本 的 类 别 , 所 以 支持 向 量 机 模型 是 非 概率 的 线性 模型 。 

给 定 训练 集合 (my) = (assis vs)) p EP zi e R 表示 第 i 个 用 户 的 p 维 
特征 , y; € (-1,1) 表示 第 i 个 用 户 是 否 购买 该 商品 。 任 意 的 超 平面 满足 : 


lwz +b] =1 (5-11) 
如 果 训 练 集合 是 线性 可 分 的 , 那么 我 们 选择 两 个 超 平面 分 割 数据 集 ， 使 得 两 个 超 平面 之 
间 没 有 样本 点 并 且 最 大 化 超 平面 之 间 的 距离 。 
I 1,421 


wTr+b<1,y= -1 


故 , 对 于 任意 样本 点 , 可 以 得 到 


yi(zTri+b)>1 (5-12) 


进一步 , 可 以 得 到 : 
argmin ul， st. (zT; +b) 21 (5-13) 
wb 
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为 了 求解 优化 问题 , 我 们 引入 拉 格 朗 日 乘 子 : 


Llw, ba) = zlo? = rai(yi(wT2;+b-1)), st. a; >0 (5-14) 


i=1 


通过 求 导 , 可 以 得 到 : 


Ow 
pj è a (5-15) 
Bp 2,09 
根据 KKT 条 件 , 可 以 得 到 : 
Vi, os(yi(wTz; +b- 1)) 2 0 (5-16) 
从 而 : 
oj —0 or yi(w"z; b) 21 (5-17) 


然而 , 只 有 一 些 o, 40, 相应 地 , 那些 满足 yi (wT m, +b) = 189 zi 就 是 支撑 向 量 。 
如 果 训 练 集合 是 线性 不 可 分 的 , 即 样本 点 线性 不 可 分 : 


yi(wT zi +b-1) Z1 (5-18) 
我 们 可 以 弱化 约束 条 件 , 使 得 : 
y(u^z;b-1)21-&, & 20 (5-19) 
那么 , 优化 问题 变 成 : 
arg min Sl 十 ADA st. yi(z? 2; +b) >1-& (5-20) 


i=1 


为 了 求解 优化 问题 ,我 们 引入 拉 格 朗 日 乘 子 : 
L(w, 6, €, a, B) = Hol? ec) g- OR 9) 61) Aib st. a; > 0 (5-21) 
i=1 i=1 i-1 


通过 求 导 , 可 以 得 到 : 


Ow = 

OL x " 
3b = 2 QiYi (5-22) 
ðL 

o6 c— ai — Bi 
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根据 KKT 条 件 , 可 以 得 到 : 


Vi, oi(yi(w zit+b—1)+é)=0 
Vi, Bik: = 0 


o; —0 or yi(wT zi +b) = 1-& 


B; —0 or & =0 


下 面 是 支持 向 量 机 模型 的 代码 实现 :站 


import numpy as np 
class SVM(): 
def 


random_state=None, 


self.C = C 
self 
self.degree = 
self 
self. 
self 


.tol = tol 


self .alphatol 
self.maxiter = 
self.numpasses = 
self 
self 


fit(self, X, y): 


. verbose 


def 


-.init. (self, C=1.0, 
tol-1e-4, 


kernel-"rbf", degree-3, 
alphatol-1e-7, 


verbose-0): 


-kernel = kernel 
degree 
.gamma = gamma 


coef0 = coef0 


= alphatol 


maxiter 


numpasses 


.random.state = random_state 


= verbose 


maxiter-10000, 


gamma-1.0, coef0-0.0, 


numpasses-10, 


"""Fit the model to data matrix X and target y. 


X : array-like, 


shape (n.samples , n features) 


The input data. 


y : array-like, shape (n samples ,) 


The class labels. 


returns a trained SVM 


self.support vectors  - check array(X) 


self.y - 


random_state = 


check_array(y, ensure_2d=False) 


check_random_state (self .random_state) 


(SEAT 3XAE BICK A http://github.com/geek-ai/irgan/master/item_reconmendation 


def 


def 


第 5 章 混合 推荐 系统 | 147 


self.kernel args = () 


if self.kernel -- "rbf" and self.gamma is not None: 
self.kernel args["gamma"] - self.gamma 

elif self.kernel -- "poly": 
self.kernel args["degree"] = self.degree 
self.kernel args["coefO"] = self.coefO 


elif self.kernel -- "sigmoid": 
self.kernel args["coef0"] = self.coef0 
K = pairwise kernels(X, metric-self.kernel, **self.kernel. args) 
self.dual_coef_ = np.zeros(X.shape[0]) 
self.intercept_ = _svm.smo( 
K, y, self.dual_coef_, self.C, random_state, self.tol, 
self.numpasses, self.maxiter, self.verbose) 
# If the user was using a linear kernel, lets also compute and store 
# the weights. This will speed up evaluations during testing time. 
if self.kernel == "linear": 
self.coef_ = np.dot(self.dual_coef_ * self.y, self.support. 
vectors_) 
# only samples with nonzero coefficients are relevant for predictions 
support_vectors = np.nonzero(self.dual_coef_) 
self.dual_coef_ = self.dual_coef_[support_vectors] 
self.support_vectors_ = X[support vectors] 
self.y = y[support vectors] 
return self 
decision function(self, X): 
if self.kernel -- "linear": 
return self.intercept_ + np.dot(X, self.coef ) 
else: 
K = pairwise kernels(X, self.support vectors., 
metric-self.kernel, **self.kernel args) 
return (self.intercept_ + np.sum(self.dual_coef_[np.newaxis, 
:] * self.y * K, axis=1)) 
predict (self, X): 


return np.sign(self.decision function(X)) 
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5.3.3 ”基于 梯度 提升 树 的 模型 


2002 年 Friedman 等 人 提出 Stochastic gradient boosting 方法 并 发 展 成 梯度 提升 树 
(GBDT), 该 算法 由 于 准确 率 高 、 训 练 快速 等 优点 受到 广泛 关注 。 它 被 广泛 应 用 到 分 类 、 
回归 和 排序 问题 中 。 该 算法 是 一 种 Additive MRA, 每 棵 树 学 习 之 前 Additive 树 模型 的 
残 差 , 它 在 被 提出 之 初 就 和 SVM 一 起 被 认为 是 泛 化 能 力 较 强 的 算法 。 此 外 , 许多 研究 者 
相继 提出 XGBoost、LightGBM 等 , 又 进一步 提升 了 GBDT 的 计算 性 能 。 

假定 只 考虑 二 分 类 问题 , 给 定 训练 集合 {11y , (Zn,yn))}， 其 中 zi 6€ RP 表示 第 
i 个 用 户 的 p 维特 征 , y; € (0,1) 表示 第 i 个 用 户 是 否 购 买 该 商品 。 模 型 的 目标 是 选择 合 
适 的 分 类 函数 F(z) 最 小 化 损失 函数 : 


L = arg min 3 L(yi, F(xi)) (5-23) 
F n=1 
梯度 提升 模型 以 Additive 的 形式 考虑 分 类 函数 F(z): 
T 
F(z) = Y, fala) (5-24) 
m=1 


其 中 了 是 迭代 次 数 , {fm(z)} 被 定义 成 增 量 的 形式 , 在 min 步 , f 去 优化 目标 值 与 fy 
累积 值 之 间 的 残 差 。 对 于 梯度 提升 树 模型 ， 每 个 函数 f 是 一 组 包含 独立 参数 的 基础 分 
类 器 (决策 树 ), 模型 参数 9 表示 决策 树 的 结构 ,比如 用 于 分 裂 内 部 节点 的 特征 和 它 的 奖 
值 等 。 在 min 步 , 优化 函数 可 以 近似 成 : 

L(yi, Fm (2i) + fmi) © L(yi, Fm-1(2i)) + gifm(Ti) + faa)? (5-25) 
其 中 Fn-1(zi)， gi 分 别 为 : 


m-1 
Faila) = D fle), a= AED PG) Ra) (626) 


j=l 
通过 最 小 化 式 子 (5-25) 的 右 式 ,可 以 得 到 
fn = argmin J Hn) — 9)? (5-27) 


下 面 是 支持 梯度 提升 树 模型 的 代码 实现 : 
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class Tree: 
def . init. (self): 
self.split feature - None 
self.leftTree - None 
self.rightTree - None 
self.real. value feature = True 
self.conditionValue - None 
self.leafNode - None 
def get predict value(self, instance): 
if self.leafNode: 
return self.leafNode.get predict value() 
if not self.split feature: 
raise ValueError("the tree is null") 
if self.real value feature and instance[self.split feature] « self. 
conditionValue: 
return self.leftTree.get predict value(instance) 
elif not self.real value feature and instance[self.split feature] -- 
self.conditionValue: 
return self.leftTree.get predict value(instance) 
return self.rightTree.get predict value(instance) 
def describe(self, addtion_info=""): 
if not self.leftTree or not self.rightTree: 
return self.leafNode.describe() 
leftInfo = self.leftTree.describe() 
rightInfo = self.rightTree.describe () 
info = addtion info*"(split feature:"*str(self.split feature)*",split 
-value:" 
*str(self.conditionValue *"[left tree:"*leftInfo*",right tree:"* 
rightInfo+"]}" 
return info 
class LeafNode: 
def __init__(self, idset): 
self.idset = idset 
self.predictValue = None 
def describe (self): 
return "{LeafNode:"+str(self.predictValue)+"}" 


def get_idset (self): 


150 | 推荐 系统 与 深度 学 习 


return self.idset 
def get predict value(self): 
return self.predictValue 
def update. predict value(self, targets, loss): 
self.predictValue = loss.update ternimal regions(targets , self.idset) 
def FriedmanMSE(left values, right values): 
weighted. n left, weighted n right = len(left values), len(right values) 
total meal left, total meal right = sum(left values)/float(weighted n. 
left), sum(right values)/float(weighted n right) 
diff = total meal left - total meal right 
return (weighted n left * weighted n right * diff * diff / 
(weighted n left + weighted n. right)) 


5.4 ”排序 学 习 


排序 学 习 (Learn to rank, L2R) 是 机 器 学 习 和 信息 检索 结合 的 产物 ,是 一 类 通过 监 
督 训练 来 优化 排序 结果 的 方法 , 主要 优势 在 于 用 监督 数据 直接 来 优化 排序 的 结果 。 排 序 
学 习 原 本 来 自信 息 检索 领域 , 用 于 对 给 定 查 询 , 根据 查询 和 文档 对 之 间 的 特征 对 文档 进 
行 排序 ， 也 适用 于 各 类 泛 检索 的 任务 , 例如 协同 过 滤 等 推荐 系统 。 在 排序 学 习 之 前 , 通 
用 的 检索 方法 ， 比 如 TF.IDF、BM25 和 语言 模型 等 方法 , 除了 很 少量 调 参 , 基本 不 会 用 
到 监督 信息 。 随 着 互联 网 的 发 展 , 更 多 的 数据 积累 和 更 高 的 精度 要 求 模型 能 够 很 好 地 消 
化 数据 以 提高 精度 ， 排 序 学 习 应 运 而 生 。 为 了 提升 检索 效果 , 一 方面 会 雇佣 人 工 显 式 地 
标注 文档 与 查询 相关 与 否 的 标签 , 这 类 标注 的 数据 量 级 一 般 来 说 比较 小 , 但 是 质量 很 高 ; 
另 一 方面 大 量 的 用 户 的 操作 行为 (点 击 、 浏览 、 收藏、 购买 等 ) 隐 式 地 成 为 了 有 效 的 监督 
信号 。 排 序 学习 使 用 这 两 类 监督 数据 取得 了 非常 好 的 结果 , 成 为 现代 网 页 搜索 的 关键 技 
RZ—O, 


5.4.1 “基于 排序 的 指标 来 优化 


在 常见 的 推荐 场景 下 ,系统 需要 预测 用 户 对 商品 的 偏好 。 之 前 大 部 分 推荐 系统 都 把 
它 当 作 一 个 回归 的 任务 (CTR MAD, 用 模型 去 预测 用 户 对 商品 的 偏好 ， 尝试 去 拟 合 整 


DLi Hang, A Short Introduction to Learning to Rank 
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个 商品 集合 的 分 数值 , 力求 模型 预测 的 绝对 值 与 标签 尽 可 能 一 致 。 经 典 的 回归 预测 的 评 
价 指标 是 RMSE ( 均 方 根 ), 其 定义 为 : 


n 


> (yi — $i? 


RMSE = V = 
n 


该 值 计算 了 预测 值 和 实际 值 的 平均 误差 , 一 般 来 说 , 对 所 有 的 样本 同等 看 待 。 如 果 所 有 
样本 的 预测 值 与 标签 目标 值 的 绝对 大 小 完全 一 致 , loss 减 小 为 0, 才 会 停止 优化 。 该 指标 
的 计算 直接 跟 每 一 个 样本 相关 , 没有 把 排序 结果 当成 一 个 整体 去 考虑 。 此 处 的 目标 值 2 
一 般 是 相关 /不 相关 , 或 者 是 购买 和 未 购买 , 分 别 取 值 1 或 者 0。 为 了 避免 涉及 给 目标 值 
设计 一 个 线性 的 分 值 , 一 般 的 取 值 不 会 超过 两 个 离散 的 值 。 

但 是 在 实际 推荐 系统 的 场景 下 , 系统 更 可 能 关心 的 是 头 部 预测 的 结果 是 否 准 确 , TopN 
个 结果 的 偏 序 关系 是 否 满足 用 户 需 求 ， 比 如 , 搜索 引擎 只 要 前 一 两 页 的 结果 能 够 满足 用 
PRET, 优化 后 面 页 面 的 结果 对 提升 用 户 体验 的 效果 有 限 。 这样 要 求 就 从 一 个 经 典 的 
回归 问题 转变 为 考虑 一 个 排序 任务 。 作 为 排序 任务 , 优化 的 目标 是 维持 一 个 相对 偏 序 关 
系 , 对 预测 分 数 的 绝对 值 不 是 那么 敏感 。 优 化 的 目标 只 要 能 够 保证 让 正 例 尽 可 能 排 在 前 
面 , 而 其 他 的 负 例 只 要 相对 值 小 一 些 , 那么 就 可 以 在 生产 环境 表现 得 不 错 。 换 句 话说 , HE 
荐 系统 希望 所 有 的 商品 的 相对 偏 序 关系 能 够 预测 准确 排序 方法 )， 而 不 要 求 对 预测 值 
的 绝对 值 准确 (回归 方法 )。 还 有 , 推荐 系统 更 希望 对 排名 靠 前 的 头 部 商品 更 敏感 , 而 基 
于 回归 预测 的 方法 对 这 种 位 置 偏 置 并 不 很 敏感 。 鉴 于 这 两 点 , 基于 排序 评价 指标 (而 不 
是 基于 回归 的 评价 指标 ) 来 评价 推荐 系统 显得 更 加 合理 。 

经 典 的 排序 指标 包括 MAP (Mean Reciprocal Rank) , MRR (Mean Average Precision), 
这 两 类 指标 是 基于 分 类 标签 的 取 值 , 只 有 相关 (1) 或 者 不 相关 (0) 两 个 结果 。 当 相关 性 
的 取 值 不 是 0/1 的 时 候 , 例如 有 “非常 相关 ”“ 很 相关 ”“ 相 关 ”“ 一 般 相关 ”和 “不 相 
关 ” 五 级 的 相关 性 结果 时 , NDCG (Normalized Discounted Cumulative Gain) 是 一 个 更 常 
用 的 指标 。 DCG 的 定义 为 : 


T 2-1 
DCG@T = rrr +) 


对 于 推荐 系统 给 出 一 个 排序 列表 (对 一 个 用 户 /查询 ), 1 是 当前 系统 给 出 的 前 工 个 
商品 的 评分 (可 以 是 0/1 或 者 取 值 更 多 的 细 粒 度 标签 )。 分 子 项 是 推荐 1; 的 收益 ,对 高 
分 商品 的 推荐 有 指数 级 的 收益 ,0 分 商品 没有 收益 。 分 母 是 对 位 置 的 偏 置 , 位 置 越 靠 后 
会 有 一 个 衰减 系数 , 排 在 前 面 的 商品 得 分 越 多 会 有 更 高 的 收益 。 排 在 后 面 的 商品 的 收益 


(5-28) 
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会 有 一 个 跟 位 置 相关 的 折扣 , 其 对 评价 结果 的 影响 越 来 越 小 , 超过 截断 值 7 的 商品 对 结 
果 没 有 影响 。 把 前 面 T 个 推荐 结果 累加 起 来 就 是 DCG， 即 折扣 的 累积 收益 。 但 是 该 值 
的 取 值 范围 没有 任何 约束 ， 需 要 归 一 化 。 归 一 化 的 方法 是 除 以 一 个 理想 的 最 好 的 DOG 
的 结果 ,理想 的 排序 结果 是 根据 标注 的 结果 ， 从 高 往 低 排出 一 个 列表 , 即 是 该 场景 能 够 
得 到 的 最 大 neg 值 maxDCG@T (该 场景 能 做 到 的 最 大 的 排序 收益 )。 将 系统 排序 的 结果 
除 以 maxDCGQT， 就 会 归 一 化 到 0 到 1 之 间 , 最 好 情况 跟 理想 的 排序 结果 一 致 ， 即 是 
1. RMSE 只 跟 单个 样本 的 结果 相关 ， 不 同样 本 的 预测 结果 之 间 不 会 直接 关联 起 来 ， 而 
NDCG 指标 是 针对 整个 排序 的 列表 去 计算 , 优化 的 是 一 个 整体 排序 的 结果 。 


5.4.2 L2R 算法 的 三 种 情形 
L2R 系列 算法 一 般 分 成 三 类 ,分别 是 Point-wise、Pair-wise 和 List-wise。 


5.4.2.1 Point-wise 


Point-wise 的 方案 实现 简单 ,基于 单个 样本 去 优化 ,排序 问题 退化 成 通用 的 回归 /分 
类 问题 ,一般 是 一 个 二 分 类 的 任务 ,是 机 器 学 习 的 典型 判别 问题 。 对 于 用 户 (query) q, 
两 个 商品 D; 和 Dj, 排序 模型 的 核心 就 是 根据 两 个 商品 的 特征 来 学 习 一 个 分 数 映 射 f, 
使 得 S, = f(Xi). zi 可 以 是 一 些 手工 特征 GR. D; 有 关 或 者 是 跟 D; 和 q 都 相关 )， 也 
可 以 是 一 些 其 他 模型 的 结果 放 进 来 集成 学 习 。f 可 以 是 一 个 逻辑 回归 模型 、 迭 代 决 策 树 
GBDT (MART), 也 可 以 是 一 个 多 层 的 神经 网 络 。 

该 问题 有 一 个 显著 的 问题 就 是 , 模型 的 分 数 是 用 户 无 关 的 , 所 有 用 户 和 商品 的 打分 
会 有 统一 的 度量 作为 预测 值 。 第 一 个 问题 是 对 头 部 的 商品 不 敏感 。 第 二 个 问题 是 无 法 有 
效 地 容忍 某 个 用 户 或 者 某 个 商品 的 偏 置 , 例如 ,对 于 不 同 用 户 (query) 而 言 ， 只 要 商品 
(document) 的 标签 是 1 (0/1 两 个 取 值 的 标签 )， 那 么 他 们 就 会 被 归 为 一 类 。 即 使 用 户 
A (query) 的 所 有 实际 购买 商品 (document) 的 特征 值 算 出 来 的 预测 值 普遍 都 比较 低 , 另 
外 一 个 用 户 B (query) 的 所 有 实际 购买 商品 (document). 的 特征 值 算 出 来 的 预测 值 普 遍 
相对 偏 高 , 他 们 的 标签 的 目标 值 都 是 1。 


5.4.2.2 Pair-wise 


Pair-wise 的 方案 将 排序 问题 约 减 成 一 个 对 偏 序 对 的 二 分 类 问题 , 即 偏 序 对 关系 正确 
还 是 错误 , 一 个 附带 的 好 处 是 可 以 方便 利用 多 粒度 的 相关 性 ,即使 用 户 对 商品 有 着 非 线 
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性 的 多 级 评价 程度 , 例如 , P perfect) 非常 满意 、G (Good) 满意 、 满意 B (Bad), 也 可 
以 方便 地 去 构造 这 样 的 偏 序 对 。 

在 给 定 查询 q 的 场景 下 , 文档 对 的 差 值 归 一 化 成 一 个 概率 分 布 (其 实 就 是 一 个 二 项 
分 布 , 包含 预测 偏 序 关系 成 立 和 不 成 立 的 的 两 个 概率 ), 然后 根据 该 分 布 与 目标 标签 的 差 
F URLAK) 来 通过 标准 梯度 下 降 方法 进行 优化 。 我们 把 两 个 分 数 的 差 值 Si- Sj 
通过 Sigmoid 函数 归 一 化 到 0~1 (满足 概率 的 定义 ), 它 的 含义 为 D; E D; 更 好 的 概率 : 

1 


Pij = P(Ui> Uj) = oa 


(5-29) 
SE LA BE UBER ER: 
C = - BjlogP;; — (1 — É)log( — Py) (5-30) 


其 中 P 是 实际 的 标签 , 所 以 上 式 P; 和 (1 - Pj) 必 有 一 个 是 零 项 , 也 就 是 上 述 两 个 子 式 
只 有 一 项 不 为 0。 按 照 标准 的 梯度 下 降 就 可 以 优化 这 个 损失 函数 。 

这 样 的 优化 有 一 个 典型 的 问题 , 如 图 5.8 所 示 是 一 个 排序 结果 的 例子 , 一 共有 15 个 
需要 排序 的 商品 (item/document)， 蓝 色 是 正 例 , 需要 排 在 上 面 ， 当 前 排序 第 1 和 第 14 
错位 , 所 以 一 共有 13 个 文档 对 的 顺序 错 了 , 总 的 损失 由 13 个 排序 错误 的 损失 相 加 。 模型 


Ni 


h 


EHI 


HEEL] 


5.8 Learn to rank 的 局 限 
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经 过 一 轮 迭 代 之 后 , 第 一 个 正 例文 档 排 到 了 第 4, 第 二 个 负 例 文档 排 到 了 第 10, 此 时 有 
11 个 文档 对 排序 错误 , 损失 可 能 是 减 小 了 , 但 是 评价 结果 却 反 而 恶化 了 ， 因为 最 前 面 的 
三 个 结果 都 是 错 的 。 我 们 需要 一 个 对 前 面 的 排序 结果 更 敏感 的 模型 ， 像 浅 色 箭头 那样 ， 
把 能 更 好 提升 文档 对 顺序 预测 对 。 黑 色 的 箭头 虽然 能 够 减少 总 的 loss, 但 是 实际 并 没有 
提高 评价 指标 , 如 NDCG。 

对 推荐 任务 有 一 个 合理 的 评价 指标 是 我 们 做 推荐 任务 的 一 个 前 提 , 但 是 评价 指标 无 
法 直接 嵌入 到 损失 函数 , 优化 的 目标 不 能 直接 提升 检索 和 推荐 的 性 能 。 根据 上 一 节 的 介 
绍 , 实际 上 NDCG 评价 指示 的 计算 函数 并 不 是 连续 的 , 也 就 是 说 在 优化 的 时 候 , 即使 模 
型 参数 有 小 的 变动 , 虽然 预测 的 分 数 会 平滑 地 改变 , 但 是 如 果 分 数 改变 没有 改变 其 中 任 
意 文档 之 间 的 相对 大 小 , 其 NDCG 指标 没有 变化 , 这 样 的 指标 并 不 好 直接 定义 成 损失 函 
数 。 

在 pair-wise 的 Learn to rank 范式 中 , lambda 系列 算法 的 提出 就 是 为 了 解决 这 个 问 
A, 在 训练 阶段 可 直接 优化 评价 指标 。 一 个 常见 的 方法 是 直接 更 改 损 失 函 数 , lambda 系 
列 (如 LambdaRank) 算法 正 是 如 此 。lambda 的 物理 意义 是 梯度 更 新 的 方向 和 大 小 。 对 
于 查询 q 对 应 的 文档 对 d; 和 dj, lambda 定义 为 交换 d; 和 d; 排序 结果 的 NDCG 的 变化 
值 ANDCG. 梯度 下 降 求解 如 下 : 

. OC(si— sj) B 
Os; 

在 pair-wise 的 场景 下 , 训练 的 样本 是 给 定 的 查询 q 和 一 对 文档 d; 和 dj, lambda A 
列 算法 的 做 法 是 在 当前 的 样本 的 损失 函数 里 面 算 上 一 个 增益 /折扣 因子 ， 该 因子 在 反 向 
传播 的 时 候 ， 可 以 理解 成 一 个 常数 ,等 价 于 对 所 有 需要 更 新 的 参数 的 梯度 上 乘 以 一 个 该 
增益 /折扣 因子 。 

以 NDCG 为 例 , 该 增益 /折扣 因子 就 是 ,当前 模型 针对 query 评价 指标 的 优化 结果 。 
直观 的 意义 是 如 果 这 样 一 个 文档 偏 序 对 交换 顺序 之 后 对 NDCG 的 影响 很 大 ， 那 么 这 次 
梯度 方向 会 更 新 更 多 的 梯度 ， 如果 影响 很 小 , 会 更 新 的 更 少 , 这 样 一 个 技巧 就 会 给 模型 
带 来 很 大 性 能 提升 。 

这 种 方式 是 跟 用 户 query) 相关 的 , 单个 用 户 (query) 和 所 有 商品 的 偏好 预测 值 的 绝 
对 值 满足 了 排序 关系 , 就 无 需 继续 优化 。 该 方式 存在 一 些 问 题 , 例如, 不 同 用 户 (query) 
的 偏 序 对 的 数量 可 能 差异 比较 大 ， 使 得 模型 结果 在 偏 序列 对 多 的 同 用 户 (query) 较 好 ， 
没有 消除 不 同 用 户 (query) 的 样本 数量 的 偏 置 。 


=g 
入 Tyra ANDCG| (5-31) 
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5.4.2.3 List-wise 
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基于 整个 排序 列表 去 优化 ,对 于 单个 用 户 (query) 而 言 , 把 整个 需要 排序 的 列表 当 
成 一 个 学 习 样 本 Gnstance), 直接 通过 NDCG 等 指标 来 优化 。 例如 , AdaRank 和 ListNet, 
直接 使 用 定义 在 一 个 排序 结果 列表 上 的 损失 函数 。AdaRank 直接 针对 每 一 个 query 对 整 


个 排序 列表 计算 与 理想 列表 的 差异 , 然后 通过 boost 策略 来 调节 不 同 query 的 权重 。 


般 来 说 ， 基 于 list-wise 比 pair-wise WAX, 而 pair-wise 比 point-wise AA, 实际 经 验 上 


的 结果 或 许 会 有 部 分 差异 。 


第 0 & 
基于 深度 学 习 的 推荐 模型 


深度 学 习 的 爆发 使 得 人 工 智 能 进一步 发 展 ， 阿 里 巴巴 、 腾 讯 、 百 度 先 后 建立 了 自己 
的 AI Labs, 就 连 传统 的 厂商 OPPO. VIVO 都 在 筹备 建立 自己 的 人 工 智能 研究 所 。 我 们 
都 知道 深度 学 习 在 图 像 、 语 言 处 理 上 有 得 天 独 厚 的 优势 , 并 且 已 经 得 到 了 业界 的 认可 和 
验证 。 那么 为 什么 推荐 系统 也 需要 引入 深度 学 习 呢 ? 推荐 系统 从 基于 内 容 的 推荐 , 到 协 
同 过 滤 的 推荐 , 协同 过 滤 的 推荐 在 整个 推荐 算法 领域 多 年 来 独 领 风 骚 ， 从 基本 的 基于 用 
户 的 协同 过 滤 , 基于 item 的 协同 过 滤 , 到 基于 model 的 协同 过 滤 , 众多 算法 不 断 发 展 和 
延伸 。 或 许 深度 学 习 在 推荐 系统 里 面 没 有 像 在 图 像 处 理 领 域 那 样 一 枝 独 秀 , 但 是 深度 学 
习 对 于 推荐 系统 在 以 下 几 个 方面 确实 起 到 了 不 可 替代 的 作用 : 

1) 能 够 直接 从 内 容 中 提取 特征 , 表征 能 力 强 ; 

20 容易 对 噪声 数据 进行 处 理 , 抗 噪 能 力 强 ; 

3) 可 以 使 用 循环 神经 网 络 对 动态 或 者 序列 数据 进行 建 模 ; 

4) 可 以 更 加 准确 地 学 习 user 和 item 的 特征 。 

并 且 从 最 近 国外 推荐 系统 论文 的 发 表情 况 上 看 , 深度 学 习 已 经 深入 扩展 到 推荐 系统 
领域 。 我 们 对 深度 学 习 在 推荐 系统 应 用 的 主要 方法 进行 了 系统 整理 ， 供 读者 深入 了 解 
深度 学 习 在 推荐 系统 的 进展 。 下 面 介绍 几 种 基于 深度 学 习 的 推荐 算法 ， 其 中 对 于 基于 
DeepFM 的 模型 , 我 们 将 会 一 步 一 步 地 介绍 其 tensorflow 实现 方法 , 其 他 的 模型 代码 可 以 
直接 参考 本 书 的 GitHub。 


6.1 基于 DNN 的 推荐 算法 


推荐 系统 和 类 似 的 通用 搜索 排序 问题 共有 的 一 大 挑战 为 同时 具备 记忆 能 力 与 泛 化 能 
力 。 记 忆 能 力 可 以 解释 为 学 习 那 些 经 常 同时 出 现 的 特征 , 发 掘 历史 数据 中 存在 的 共 现 性 。 
泛 化 能 力 则 基于 迁移 相关 性 , 探索 之 前 几乎 没有 出 现 过 的 新 特征 组 合 。 基 于 记忆 能 力 的 
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推荐 系统 通常 偏向 学 习 历 史 数据 的 样本 , 直接 与 用 户 已 经 采取 的 动作 相关 ; 泛 化 能 力 相 
比 记忆 能 力 则 更 趋向 于 提升 推荐 内 容 的 多 样 性 。 

对 工业 界 大 规模 线 上 推荐 和 排序 系统 中 , 广义 线性 模型 (如 逻辑 回归 ) 得 到 了 广泛 应 
用 , 因为 它们 简单 , 可 扩展 , 可 解释 。 这 些 模型 一 般 在 二 值 稀疏 特征 上 训练 , 这 些 特征 一 
般 采 用 独 热 编码 。 举 个 例子 ,如 果 用 户 安装 了 腾讯 视频 , 则 二 值 特征 user-installed_app= 
TencenVideo 的 值 为 1。 模 型 的 记忆 能 力 可 以 有 效 地 通过 稀疏 特征 之 上 的 外 积 变换 获得 ， 
类 似 地 , 当 用 户 安装 了 腾讯 视频 , 随后 又 展示 了 QQ 音乐 , 那么 AND (user_installed_app= 
TencentVideo，impression_app=QQMusic) 的 值 为 1。 这 解释 了 同时 发 生 的 一 对 特征 是 如 
何 与 对 应 标签 关联 的 。 进 一 步 我 们 可 以 通过 使 用 小 颗粒 特征 提高 泛 化 能 力 , 例如 , AND 
Cuser-installed_category=video, impression_category=music ) , 但 这 些 特征 常常 需要 人 工 来 
选择 。 外 积 变换 有 一 个 限制 , 它 对 于 不 在 训练 数据 中 的 查询 项 不 具备 泛 化 能 力 。 

另 一 方面 基于 媒 入 的 模型 (如 factorization machine 和 深度 神经 网 络 ) 对 以 前 没有 
出 现 过 的 查询 项 特征 对 也 具备 泛 化 能 力 , 通过 为 每 个 查询 和 条 目 特 征 学 习 一 个 低 维 稠密 
的 嵌入 向 量 , 减轻 了 特征 工程 负担 。 但 它 很 难 有 效 学 习 低 维 表示 ， 当 query-item 矩阵 稀 
RAMA, 例如 用 户 有 特殊 偏好 , 或 者 只 有 极 少 量 需 求 的 条 目 ， 这 种 情况 下 ,大 多 数 
query-item 是 没有 交集 的 ， 但 稠密 嵌入 会 给 所 有 query-item 带 来 非 零 预测 ， 从 而 可 能 过 
度 泛 化 , 给 出 完全 不 相关 的 推荐 。 而 使 用 外 积 特征 变换 的 线性 模型 只 需 少量 参数 就 能 记 
住 这 些 “ 特 殊 偏好 ”。 

所 以 自然 而 然 地 可 以 想到 , 通过 联合 训练 一 个 线性 模型 组 件 和 一 个 深度 神经 网 络 组 
件 得 到 Wide & Deep 模型 (如 下 图 所 示 )。 这 样 用 一 个 模型 就 可 以 同时 获得 记忆 能 力 和 
泛 化 能 力 。 


x Kc 输出 单元 


、 KRUZ 
AAN AA | itk WM c 
ééóóéeeoeoebon éééééóé é e MRE 
Wide Models Wide & Deep Models Deep Models 


图 6.1 Wide & Deep 模型 结构 


YouTube 团队 在 推荐 系统 上 进行 了 DNN 方面 的 尝试 , 发 表 在 2016 4 9 月 的 RecSys 
ZWE, 目前 已 经 被 百度 、 阿 里 巴巴 、 腾讯 等 各 大 互联 网 公司 引入 推荐 系统 中 。 一 般 来 
说 整个 推荐 系统 分 为 召回 (Matching 或 candidate generation) 和 排序 (Ranking) 两 个 阶 
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Bt. 召回 阶段 通过 i2i/u2i/u2u/user profile 等 方式 “粗糙 ” 地 召回 候选 物品 ,召回 阶段 视 
频 的 数量 是 百 万 级 别 ; 排序 阶段 对 召回 后 的 视频 采用 更 精细 的 特征 计算 user-item 之 间 
的 排序 分 , 作为 最 终 输 出 推荐 结果 的 依据 。 

第 一 部 分 : 召回 阶段 

我 们 把 推荐 问题 建 模 成 一 个 “超大 规模 多 分 类 ”问题 。 即 在 时 刻 t, 为 用 户 U (上 下 
文 信息 CO 在 视频 库 V. 中 精准 地 预测 出 视频 i 的 类 别 每 个 具体 的 视频 视 为 一 个 类 别 ,; 
即 为 一 个 类 别 ), 用 数学 公式 表达 如 下 : 


P(w, = i|U,C) = (6-1) 


3 jey €" 

很 显然 上 式 为 一 个 softmax 多 分 类 器 的 形式 。 向 量 ve RN 是 «user, context» 信息 
的 高 维 “embedding”, 而 向 量 vj e RN 则 是 视频 7 的 embedding 向 量 。 所 以 DNN 的 目标 
就 是 在 用 户 信息 和 上 下 文 信息 为 输入 条 件 下 学 习 用 户 的 embedding 向 量 v。 用 公式 表达 
DNN 就 是 在 拟 合 函数 v = f-DNN (userinfo, contert-in fo)e 


用 户 历史 数据 以 及 上 下 文 特征 


eS 
EX 


其 他 候选 池 来 源 


图 6.2 推荐 系统 的 召回 和 排序 两 个 阶段 


在 这 种 超大 规模 分 类 问题 上 ,至少 要 有 几 百 万 个 类 别 , 实际 训练 采用 的 是 Negative 
Sampce〔( 负 采样 ), 或 是 采用 前 面 我 们 介绍 word2vec 方法 时 提 到 的 SkipGram 方法 。 

整个 模型 架构 是 包含 三 个 隐 层 的 DNN 结构 。 输入 是 用 户 浏览 历 史 、 搜索 历史 、 人 口 
统计 学 信息 和 其 余 上 下 文 信息 concat 成 的 输入 向 量 ; 输出 分 线 上 和 离线 训练 两 个 部 分 。 
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离线 训练 阶段 输出 层 为 softmax 层 , 输出 公式 (6-1) 表达 的 概率 。 而 线 上 则 直接 利用 user 
向 量 查询 相关 商品 ,最 重要 问题 在 性 能 方面 。 我 们 利用 类 似 局 部 敏感 哈 希 的 算法 为 用 户 
提供 最 相关 的 N 个 视频 。 


性 别 
其 他 属性 的 向 量 特征 


LI 
用 户 观看 历史 的 向 量 ”用 户 搜索 历史 的 向 量 
图 6.3 召回 模型 结构 


类 似 于 word2vec 的 做 法 , 每 个 视频 都 会 被 embedding 到 固定 维度 的 向 量 中 。 用 户 的 
观看 视频 历史 则 是 通过 变 长 的 视频 序列 表达 , 最 终 通过 加 权 平 均 (可 根据 重要 性 和 时 间 
进行 加 权 ) 得 到 固定 维度 的 watch vector 作为 DNN 的 输入 。 

除 历史 观看 视频 外 还 包括 以 下 其 他 特征 。 

历史 搜索 query: 把 历史 搜索 的 query 分 词 后 的 token 的 embedding 向 量 进 行 加 权 平 
3g. 能够 反映 用 户 的 整体 搜索 历史 状态 ; 

人 口 统计 学 信息 : 性 别 、 年 龄 、 地 域 等 ; 

其 他 上 下 文 信息 : 设备 、 登 录 状 态 等 。 

在 有 监督 学 习 问题 中 , 最 重要 的 选择 是 label (目标 变量 ) 了 , 因为 label 决定 了 模型 
的 训练 目标 ， 而 模型 和 特征 都 是 为 了 逼近 label. YouTube 也 提 到 了 如 下 设计 : 

使 用 更 广 的 数据 源 : 不 仅仅 使 用 推荐 场景 的 数据 进行 训练 , 其 他 场景 比如 搜索 等 的 
数据 也 要 用 到 , 这 样 也 能 为 推荐 场景 提供 一 些 探索 功能 。 

为 每 个 用 户 生成 固定 数量 训练 样本 : 我 们 在 实际 中 发 现 一 个 训练 技巧 , 如 果 为 每 个 
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用 户 固定 样本 数量 上 限 , 平等 地 对 待 每 个 用 户 , 避免 loss 被 少数 活跃 用 户 代 表 , 能 明显 
提升 线 上 效果 。 

抛弃 序列 信息 : 对 过 去 观看 视频 /历史 搜索 query 的 embedding 向 量 进行 加 权 平 均 。 

不 对 称 的 共同 浏览 (asymmetric cowatch) 问题 : 所 谓 asymmetric cowatch 指 的 是 用 
户 在 浏览 视频 时 候 , 往往 都 是 序列 式 的 , 开始 看 一 些 比较 流行 的 , 逐渐 找到 细 分 的 视频 。 

下 图 所 示 图 (a) 是 heldout 方式 , 利用 上 下 文 信息 预 估 中 间 的 一 个 视频 ; 图 (b) 是 
predicting next watch 的 方式 , 则 是 利用 上 文 信息 , 预 估 下 一 次 浏览 的 视频 。 我 们 发 现 图 
Cb) 的 方式 在 线 上 A/B test 中 表现 更 佳 。 而 实际 上 , 传统 的 协同 过 滤 类 算法 ,都 是 隐 含 
地 采用 图 Ca) 的 heldout 方式 , 忽略 了 不 对 称 的 浏览 模式 。 


label 
network inputs network inputs network inputs label 
"n Us Wiy Ww+2 Un Wg Wing Wy Ming 
pO P SM ee Og Ru. m 一 o 
watch history watch history 
Sy h Sea Sy Sy Sa Sea ya Sys 
A a SRE ey at ee HG 
search history tim search history time 
CE 


(a) Predicting held-out watch (b) Predicting future watch 


图 6.4 序列 信息 


第 二 部 分 : 排序 阶段 

排序 阶段 最 重要 任务 就 是 精准 地 预 佑 用 户 对 视频 的 喜好 程度 。 不 同 于 召回 阶段 面临 
的 是 百 万 级 的 候选 视频 集 , 排序 阶段 面 对 的 只 是 百 级 别 的 视频 集 , 因此 我 们 可 以 使 用 更 
多 更 精细 的 特征 来 刻画 视频 (item) 以 及 用 户 与 视频 (user-item) 的 关系 。 比 如 用 户 可 能 
很 喜欢 某 个 视频 , 但 如 果 列 表 页 选用 的 “ 缩 略图 ”选择 不 当 , 用 户 也 许 因此 不 会 点 击 , 等 
等 。 此外， 召回 阶段 的 来 源 往往 很 多 , 没 法 直接 相互 比较 ,排序 阶段 男 一 个 关键 的 作用 
是 能 够 把 不 同 来 源 的 数据 进行 有 效 的 比较 。 

在 目标 的 设 定 方面 ,单纯 CTR 指标 是 有 迷惑 性 的 ， 有些 靠 关键 词 吸引 用 户 高 点 击 
的 视频 未 必 能 够 被 播放 。 因 此 设 定 的 目标 基本 与 期 望 的 观看 时 长 相关 , 具体 的 目标 调整 
则 根据 线 上 的 A/B 进行 调整 。 

排序 阶段 的 模型 和 召回 基本 相似 , 不 同 的 是 模型 最 后 一 层 是 一 个 weighted LR 层 , 而 
线 上 服务 阶段 激励 函数 用 的 是 er。 
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weighted 
logistic 


服务 层 训练 模型 


[ ReLU ] 
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喜欢 的 视频 ID 列表 …… 观看 的 视频 ID 列表 pend 


图 6.5 “排序 模型 结构 


尽管 深度 学 习 在 图 像 、 语 音 和 NLP 等 场景 都 能 实现 end-to-end 的 训练 , 取消 了 人 工 
特征 工程 工作 。 然 而 在 搜索 和 推荐 场景 , 我 们 很 难 把 原始 数据 直接 作为 FNN 的 输入 , 特 
征 工程 仍然 很 重要 。 特 征 工程 中 最 难 的 是 如 何 建 模 用 户 时 序 行为 (temporal sequence of 
user actions) , 并 且 将 这 些 行为 和 要 排序 的 item 相关 联 。 

YouTube 发 现 最 重要 的 特征 是 描述 用 户 与 商品 本 身 或 相似 商品 之 间 交 互 的 特征 , 这 
与 Facebook 在 2014 年 提出 LR+GBDT 模型 的 论文 (Practical Lessons from Predicting 
Clicks on Ads at Facebook) 中 得 到 的 结论 是 一 致 的 。 比 如 我 们 要 度量 用 户 对 视频 的 喜欢 
程度 , 可 以 考虑 用 户 与 视频 所 在 频道 间 的 关系 。 

数量 特征 : 浏览 该 频道 的 次 数 ; 时间 特征 : 比如 最 近 一 次 浏览 该 频道 距离 现在 的 时 
间 。 这 两 个 连续 特征 的 最 大 好 处 是 具备 非常 强 的 泛 化 能 力 。 另 外 除了 这 两 个 偏 正 向 的 特 
征 , 用 户 对 于 视频 所 在 频道 的 一 些 PV 但 不 点 击 的 行为 , 即 负 反 馈 Signal 同样 非常 重要 。 

另外 , 我 们 还 发 现 , 把 召回 阶段 的 信息 ,比如 推荐 来 源 和 所 在 来 源 的 分 数 , 传播 到 排 
序 阶段 同样 能 取得 很 好 的 提升 效果 。 

NN 更 适合 处 理 连续 特征 , 因此 稀疏 的 特别 是 高 基数 空间 的 离散 特征 需要 embedding 
到 稠密 的 向 量 中 。 每 个 维度 (比如 query/userid) 都 有 独立 的 embedding 空间 , 一 般 来 说 
空间 的 维度 基本 与 log (去 重 后 值 的 数量 ) 相当 。 实 际 并 非 为 所 有 的 id 进行 embedding, 
比如 视频 id, 只 需要 按照 点 击 排序 , 选择 top N 视频 进行 embedding, 其 余 置 为 0 向 量 即 
可 。 而 对 于 像 “过 去 点 击 的 视频 ”这 种 multivalent 特征 , 与 Matching 阶段 的 处 理 相同 
进行 加 权 平 均 即 可 。 同 时, 同 维度 不 同 特 征 采 用 的 相同 ID 的 embedding 是 共享 的 (比如 
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“过 去 浏览 的 视频 id" "seed WA id”), 这 样 可 以 大 大 加 速 训 练 过 程 , 但 显然 输入 层 仍 
要 分 别 填充 。 

众所周知 ，NN 对 输入 特征 的 尺度 和 分 布 都 是 非常 敏感 的 ， 实 际 上 ， 基 本 上 除了 
TreeBased 的 模型 (比如 GBDT/RF), 机 器 学 习 的 大 多 算法 都 如 此 。 我 们 发 现 归 一 化 方 
法 对 收敛 很 关键 ,推荐 一 种 排序 分 位 归 一 到 [0,1] 区 间 的 方法 ， 即 z = f^. df. RW 

除 此 之 外 , 我 们 还 把 归 一 化 后 的 m 的 平方 根 Vz 和 平方 z2 作为 网 络 输入 , 以 期 使 网 
络 能 够 更 容易 得 到 特征 的 次 线性 (sub-linear) 和 (super-linear) 超 线性 函数 。 

最 后 , 模型 的 目标 是 预测 期 望 观看 时 长 。 有 点 击 的 为 正 样本 , 有 PV 无 点 击 的 为 负 样 
AR, 正 样本 需要 根据 观看 时 长 进行 加 权 。 因 此 ， 训练 阶段 网 络 最 后 一 层 用 的 是 weighted 
logistic regression 

正 样本 的 权重 为 观看 时 长 T 负 样 本 权重 为 1。 这 样 的 话 ，LR 的 期 望 为 : 

o 
N-k 

其 中 N 是 总 的 样本 数量 , k 是 正 样本 数量 , T, 是 第 i 个 正 样本 的 观看 时 长 。 一 般 
来 说 , k 相对 N 比较 小 , 因此 上 式 的 期 望 可 以 转换 成 E[T]/ (1 +P) 其 中 P 是 点 击 率 。 
点 击 率 一 般 很 小 ， 这 样 目 标 期 望 接近 于 E[T]， 即 期 望 观看 时 长 。 因 此 在 线 上 serving 的 
inference 阶段 , 采用 e 作为 激励 函数 , 就 是 近似 的 估计 期 望 观 看 时 长 。 

下 图 是 离线 利用 hold-out 一 天 数据 在 不 同 NN 网 络 结构 下 的 结果 。 如 果 用 户 对 模型 
预 估 高 分 的 反而 没有 观看 , 则 认为 是 预测 错误 的 观看 时 长 。 weighted, per-user loss 就 是 预 
测 错误 观看 时 长 占 总 观看 时 长 的 比例 。 


隐藏 层 设计 模型 损失 值 


(6-2) 


None 41.696 
256 ReLU 36.9% 
512 ReLU 36.7% 
1024 ReLU 35.8% 
512 ReLU 一 256 ReLU 35.296 
1024 ReLU—512 ReLU 34.796 
1024 ReLU 一 512 ReLU 一 256 ReLU 34.696 


尝试 使 用 不 同 宽度 和 尝试 的 网 络 预测 次 日 观看 结果 ， 观 察 模型 损失 值 。 
使 用 3 层 网 络 ， 神 经 元 数量 分 别 为 1024、512、256， 效 果 最 好 。 


图 6.6 不 同 NN 的 效果 
YouTube 对 网 络 结 构 中 隐 层 的 宽度 和 深度 方面 都 做 了 测试 , 从 下 图 结果 看 增加 隐 层 
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网 络 宽度 和 深度 都 能 提升 模型 效果 。 而 对 于 1024 一 512 — 256 这 个 网 络 , 测试 不 对 预测 
目标 (观看 时 长 ) 进行 归 一 化 ,loss 增加 了 0.296. 而 如 果 把 weighted LR FRM LR, 效 
果 下 降 达 到 4.1%。 


6.2 ”基于 DeepFM 的 推荐 算法 


除了 Deep&Wide 模型 ，DeepFM 也 是 一 个 被 广泛 应 用 在 点 击 率 预测 中 的 深度 学 习 
模型 ， 该 模型 的 设计 思路 来 自 哈 工大 & 华 为 诺 亚 方舟 实验 室 ， 主 要 关注 如 何 学 习 user 
behavior 背后 的 组 合 特 征 (feature interactions), 从 而 最 大 化 推荐 系统 的 CTR. 论文 提出 
构建 一 个 端 到 端的 可 以 同时 突出 低 阶 和 高 阶 feature interactions 的 学 习 模型 DeepFM. 

DeepFM 是 一 个 集成 了 FM (Factorization Machine) 和 DNN 的 神经 网 络 框架 ， 思 路 
和 上 文 提 到 的 Wide&Deep 有 相似 的 地 方 。 本 节 将 具体 介绍 该 模型 的 原理 、 网 络 结构 设 
计 方 法 以 及 其 与 Wide&Deep 模型 的 比较 。 

我 们 都 知道 Logistic Regression 是 CTR 预 估 中 最 常用 的 算法 。 但 LR 有 一 个 大 前 提 ， 
即 假设 特征 之 间 是 相互 独立 的 , 没有 考虑 特征 之 间 的 相互 关系 。 换 句 话说 , LR 在 模型 侧 
忽略 了 feature pair 等 高 阶 信息 。 比 如 , 在 一 些 场景 下 , 我 们 发 现 用 户 年 龄 和 性 别 是 十 分 
重要 的 特征 , 但 LR 只 能 单独 处 理 这 2 个 特征 ， 比 如 女性 比 男性 点 击 率 高 , 年 纪 越 小 点 
击 率 越 高 。 如 果 需 要 得 到 20~30 岁 的 女性 , 15~20 岁 男性 点 击 率 高 这 样 更 精确 的 组 合 特 
征 ， 需 要 人 工 对 两 个 特征 进行 交叉 。 两 个 特征 尚 能 做 人 工 的 交叉 , 但 几 十 维 的 特征 两 两 
交叉 起 来 , 特征 工程 将 会 十 分 巨大 。 所 以 FM 算法 在 CTR 预 估 中 才 会 比较 重要 。FM 简 
要 思路 参考 : 

假设 LR 算法 决定 追加 考虑 任意 两 个 特征 之 间 的 关系 , 则 模型 改写 成 : 


n—-l n 


A(x) = wo + wisi + >: X WijTiTj (6-3) 
ici 


i=1 j=i+1 


其 中 wi; 是 feature pair< z;,z; > 的 交叉 权重 。 相 对 于 LR 模型 , 5X 6-3 会 有 如 下 问 


D 参数 空间 大 幅 增加 ， 由 线性 增加 至 平方 级 。 
20 样本 比较 稀疏 。 
因此 ,我 们 需要 一 种 在 模型 侧 计算 高 阶 信息 的 低 复杂 度 方法 。FM 就 是 其 中 一 种 方 
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法 , CE wi; 分 解 成 2 个 向 量 < vi,v; > 


A(x) = wo + Du t Y X < Vi, Vj > Zirj (6-4) 


i=1 j=i+1 


直观 来 看 , FM 认为 当 一 个 特征 wi 需要 与 其 他 特征 wj 考虑 组 合 特性 的 时 候 ， 只 需 
要 一 组 k 维 向 量 w 即 可 代表 zi, 而 不 需 针对 所 有 特征 分 别 计算 出 不 同 的 组 合 参数 wijo 
这 相当 于 将 特征 映射 到 一 个 k 维 空间 , 用 向 量 关 系 表 示 特 征 关 系 。 这 种 思想 与 前 面 我 们 
介绍 的 矩阵 分 解 (SVD) 的 思想 是 一 致 的 。 

单独 使 用 FM 算法 考虑 到 了 低 阶 特征 的 组 合 问题 ,但 是 无 法 解决 高 阶 特征 的 挖掘 问 
Bi, 所 以 才 有 引入 DeepFM 的 必要 性 。 

DeepFM 是 一 个 集成 了 FM 和 DNN 的 神经 网 络 框架 , 思路 和 Google 的 Wide&Deep 
有 相似 的 地 方 ， 都 包括 wide 和 deep 两 部 分 。W&D 模型 的 wide 部 分 是 高 维 线性 模 
型 , DeepFM 的 wide 部 分 则 是 FM 模型 ; 两 者 的 deep 部 分 是 一 致 的 , 都 是 DNN 层 。 


十 Addition ——> Weight-1 Connection | OPARE 
Normal Connection 

x Inner Product _ > Embedding x L 

AY Sigmoia Function  — AAA ofh e = = i m m m Oe m a a a 1 


> Activation Function 


Field i Field 7 e Field m 


图 6.7 DeepFM 模型 结构 (网 络 左边 为 FM 层 , 右边 为 DNN ED 


WED 模型 的 输入 向 量 维度 很 大 , 因为 wide 部 分 的 特征 包括 了 手工 提取 的 pair-wise 
特征 组 合 ， 大 大 提高 计算 复杂 度 。 和 W&D 模型 相 比 ，DeepFM 的 wide 和 deep 部 分 共 
享 相同 的 输入 , 可 以 提高 训练 效率 , 不 需要 额外 的 特征 工程 , 用 FM 建 模 低 阶 的 特征 组 
合 , 用 DNN 建 模 高 阶 的 特征 组 合 , 因此 可 以 同时 从 raw feature 中 学 习 到 高 阶 和 低 阶 的 
特征 交互 。 在 真实 应 用 市 场 的 数据 集 上 实验 验证 ，DeepFM 在 CTR 预 估 的 计算 效率 和 
AUC. LogLoss 上 超越 了 现 有 的 模型 (LR, FM, FNN, PNN、W&D)。 

前 面 介绍 了 DeepFM 算 法 的 基本 原理 , 下 面 将 具体 介绍 如 何 用 tensorflow 搭 建 DeepFM。 
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1) 实现 FM 中 的 一 阶 部 分 : 
FM 中 一 阶 部 分 和 LR 模型 类 似 ,主要 是 将 特征 分 别 乘 上 对 应 的 系数 : 


n n n 
(x) = wo + > wisi +5 X Wij LiL; 
ici 


i=1 j=141 


对 应 下 面 网 络 图 中 框 出 的 部 分 : 


Addition 一 一 > Weight-1 Connection ^. —— qu m 
+ Normal Connection Output Units 1 
x Inner Product — — -> Embedding dA—P---------- 
^j Sigmoid Function = ——---j---2------- 1 


> Activation 


Hidden Layer i 


6.8 FM 一 阶 部 分 


网 络 结构 代码 实现 : 


aaa first order term ---------- 

3043616 vij 

feature. bias = tf.Variable(tf.random.uniform([feature.size, 1], 
0.0, 1.0), name-"feature bias 0") # feature_size * 1 

y-first order = feature bias 

## wij * xij 

y-first order = tf.reduce sum(tf.multiply (y first order, 
feat value), 2) # None * F 

# +3840, dropout Hike MS 

y-first order = tf.nn.dropout(y first order, dropout_keep_fm[0]) 

# None * F 


2) 实现 FM 中 的 二 阶 部 分 : 
FM 中 的 二 阶 部 分 ,主要 是 对 z; 和 zi 两 两 组 合 , 并且 找到 它们 分 别 对 应 的 特征 向 
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量 。 
n n n 
(x) =wot wisi | Y Y, «vov; > mim; 
i= i=1 j=141 
对 应 下 面 网 络 图 中 框 出 的 部 分 : 
十 Addition 一 一 > Weight-l Connection f ~ A TTT Output Units | 


Normal Connection 
DX Inner Product — 1 


Embedding 7 
^j Sigmoid Function PEE sa UNS ee el ce Tt 1 
+ Activation Fun 一 一 一 1 
一 1 Se on Layer | 
| FM Layer É | ! 1 
ho Kl 2 <A <A 
d - - 


mÓ— VEG a E E 
" \ PS —— 


69 FM 二 阶 部 分 


为 了 更 方便 实现 二 阶 部 分 , 我 们 进一步 进行 推导 : 最 后 转化 为 和 平方 与 平方 和 两 部 
分 ; 


i=1 j=it1 
e T 
一 7 X > (ui vj)riv; 一 2 Y. vj)riv; 
i=l j=1 =1 
1 n n k n k 
73 | 22223 vorum; - 3 1 norum 
i=l j=1 f=1 i=1 f=1 
1 k n n n 
AXE) (Soa) -Zt 
fci X Nia j=l i=1 
n 2 n 
a (= sun) EXT 
i=1 i=1 
Cn Soe? 
和 平方 平方 和 


网 络 结构 代码 实现 : 
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bt tt first order term ---------- 
# ---------- second order term --------------- 
#vi*xi 
embeddings = tf.multiply (embeddings, feat_value) 
并 和 平方 
summed features emb = tf.reduce sum(embeddings, 1) # None * K 
summed features emb square = tf.square(summed features emb) # 


None * K 


A 

squared features emb = tf.square(embeddings) 

Squared. sum features emb = tf.reduce sum(squared, features emb, 
1) # None * K 


并 和 平方 与 平方 和 按 公 式 组 合 

y-second order = 0.5 * tf.subtract(summed features emb square, 
squared. sum features emb) # None * K 

y-second order - tf.nn.dropout(y second order, 


dropout keep fm[1]) # None * K 


3) 实现 DNN: 
传统 的 多 层 感知 机 , 增加 dropout 防止 过 拟 合 。 


with tf.name scope("deep"): 


d ---------- Deep component ---------- 
y-deep = tf.reshape (embeddings, shape-[-1, 
feature size*embedding size]) # None * (F*K) 


y-deep = tf.nn.dropout(y deep, dropout keep .deep[0]) 


weights - dict() 
ddnde Rd * 
input size = feature size * embedding size 
glorot = np.sqrt(2.0 / (input_size + deep layers[0])) 
weights["layer 0"] = tf.Variable( 
np.random.normal(loc-0, scale-glorot, size-(input. size, 
deep layers[0])), dtype-np.float32, name-"weights layer0") 


weights["bias 0"] = tf.Variable(np.random.normal(1loc-0, 
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scale=glorot, size=(1, deep_layers[0])), 
dtype=np.float32 ,name="weights_ 
bias0") 


num_layer = len(deep_layers) 
for i in range(1, num layer): 
glorot = np.sqrt(2.0 / (deep layers[i-1] + deep layers[il)) 
weights["layer Ad" 4 i] = tf.Variable( 
np.random.normal(loc-0, scale-glorot, 
size-(deep.layers[i-1], deep layers[i])), 
dtype-np.float32 ,name-"weights layer"*str(i)) # 
layers[i-1] * layers[i] 
weights["bias 4d" 4 i] = tf.Variable( 
np.random.normal(loc-0, scale-glorot, size-(1, 
deep.layers[il)), 
dtype-np.float32 ,name-"weights bias"*str(i)) # 1 * 
layer[i] 
# # S Fann & E ub ty eR 
for i in range(0, len(deep_layers)): 
y-deep = tf.add(tf.matmul(y_deep, weights["layer_%d" %i]), 
weights ["bias_%d"%i]) # None * layer[i] * 1 
#if self.batch norm: 
# self.y deep = self.batch norm layer(self.y deep, 
train. phase-self.train phase, scope bn-"bn Ad" Ai) # 
None * layer[i] * 1 
y-deep = tf.nn.relu(y deep) 
y-deep = tf.nn.dropout(y deep, dropout keep deep[i1*i]) d 


dropout at each Deep layer 


这 里 对 权重 初始 化 使 用 了 glorot, 根据 输入 与 输出 层 的 神经 元 个 数 进行 分 布 初始 化 ， 
减少 梯度 爆炸 和 梯度 弥散 的 风险 。 

4) DNN+FM 融合 

将 两 者 的 输出 进行 连接 , 并 线性 组 合 起 来 , 通过 sigmoid 函数 转换 成 最 后 的 得 分 。 

如 果 是 DEEP 5 FM 融合 , 则 将 2 个 部 分 的 输出 进行 concat, 如 果 只 是 单一 的 DNN 
或 者 FM 则 只 使 用 一 部 分 的 输出 。 代 码 中 由 MODETYPE 控制 网 络 类 型 。 
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- DeepFM -- 


with tf.name scope("deepfm"): 
concat input = tf.concat([y.first order, y.second order, y deep], 
axis-1) 


if MODETYPE 


0: # #deepfm 
concat_input = tf.concat([y_first_order, y_second_order, y_deep 
], axis=1) 
input_size = feature size + embedding size + deep layers[-1] 
elif MODETYPE--1: # ifm only 
concat input - tf.concat([y first order, y second order], axis-1) 
input_size = feature size + embedding size 
elif MODETYPE--2: # #dnn only 
concat_input = y_deep 


input_size = deep layers[-1] 


glorot = np.sqrt(2.0 / (input_size + 1)) 
weights ["concat projection"] = 
tf.Variable (np. random.normal(loc=0, scale-glorot, 
size=(input_size, 1)), 
dtype-np.float32 ,name-"concat projectionO") # 
layers[i-1]*1ayers[i] 
weights["concat bias"] = tf.Variable(tf.constant (0.01), 
dtype-np.float32 ,name="concat_bias0") 
out = tf.add(tf.matmul(concat input, 
weights["concat projection"]), 


weights ["concat bias"],name-'out') 


Score-tf.nn.sigmoid(out,name-'score') 
FENERE 


tf.summary .histogram ("deep+fm"+"/score",score) 
5) 评估 器 的 设计 


自 定 义 损失 函数 ， 常 用 的 损失 函数 最 小 平方 误差 准则 (MSE) RISE XU AE. [RII d, 
们 可 以 利用 TensorBoard 观测 模型 AUC 等 指标 的 变化 情况 : 


if args.model type--0: 


estimate name-"DeepFm Estimate" 
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elif args.model type--1: 
estimate name-"Fm Estimate" 
elif args.model type--2: 


estimate name-"Deep Estimate" 


with tf.name scope(estimate name): 
FMRABKH RL: HAZ 
loss = tf.reduce_mean(tf.reduce_sum(tf.square(y - prediction), 
reduction_indices=[1])) 
观看 常量 


tf.summary.scalar('loss',loss) 


auc = tf.contrib.metrics.streaming auc(prediction,tf.convert to tensor 
G2) 

HENARE 

tf.summary.scalar('auci',auc[0]) 


tf.summary.scalar('auc2',auc[1]) 


6) 通过 TensorBoard 观察 模型 各 项 指标 : 

在 前 面 的 模型 结构 构建 过 程 中 , 我 们 已 经 在 tf.summary 中 增加 score. loss. auc 的 监 
控 。 在 训练 迭代 过 程 中 , 我 们 注意 将 每 次 的 中 间 结 果 merge 进去 , 即 可 在 TensorBoard 中 
观察 收敛 过 程 。 


with tf.Session() as sess: 
saver = tf.train.Saver() 
sess.run(init) 
sess.run(tf.local variables initializer()) 
# & 5 S|Sumnary P 
merged = tf.summary.merge all() 
FRR TMA HAR 
writer = tf.summary.FileWriter('./tmp/deepfm',graph-tf.get default. 


graph()) 


for _ in range (400): 

sess.run(train_step, feed_dict={x: x_data, y: y_data}) 
-45 == 
#print (str(_)+": loss=") 


if 
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print("[%d]loss:%s"%(_,sess.run(loss, feed_dict={x: x data 


y-data}))) 
result = sess.run(merged,feed dict-(x: x data, y: y_data}) 


3t nerged4t & 4 krunt 
writer.add summary (result ,_) 


并 result 是 summary 类 型 的 ， 需 要 放 入 writer 中 ，i 步 数 (x 轴 ) 


Fm_Estmate 
Pr Eetinate/aac? 


图 6.10 FM/DNN/DeepFM 的 比较 
loss 和 auc 的 变化 : 可 以 看 到 DeepFM 比 FM 有 显著 提升 , 对比 DNN 也 有 一 定 幅 


度 提 升 。 使 用 相同 的 样本 数据 训练 , 在 测试 集 上 DNN 的 AUC 为 0.73, DeepFM 的 AUC 
为 0.75, FM 的 AUC 为 0.70 (特征 工程 仍然 是 最 重要 的 , 特征 越 多 ,差异 越 明显 ) 


6.3 ”基于 矩阵 分 解 和 图 像 特 征 的 推荐 算法 


传统 的 推荐 系统 往往 会 遇 到 行为 数据 稀疏 、 冷 启动 等 问题 ， 比 如 在 Netflix 数据 库 ， 
F 均 每 个 用 户 只 参与 200 个 电影 的 评分 , 但 实际 上 , 数据 库 里 有 上 万 部 电影 , 稀疏 的 记 


ky 
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分 数据 不 利于 模型 的 学 习 。 因此 , 寻找 一 些 附加 信息 帮助 模型 训练 是 非常 有 用 的 手段 。 


近年 来 , 基于 上 下 文 环境 的 推荐 系统 引起 了 大 家 的 广泛 关注 。 这 些 上 下 文 环 境 包 括 
电影 的 属性 、 用 户 画像 特征 、 电 影 的 评论 等 等 。 研 究 人 员 希 望 通过 这 些 附 加 信息 来 缓解 
评分 数据 稀疏 等 问题 ， 对 于 那些 没有 评分 数据 的 电影 ， 可 以 基于 上 下 文 环 境 来 推荐 ， 从 
而 进一步 提升 推荐 系统 的 质量 。 


研究 人 员 观 察 到 一 个 有 趣 的 现象 , 电影 的 海报 和 一 些 静 止 帧 图 片 能 提供 许多 有 价值 
的 附加 信息 。 如 图 6.11, 作者 展示 了 两 部 电影 , 每 部 电影 有 一 张 海 报 和 两 张 静 止 帧 图 片 。 
虽然 这 两 部 电影 有 着 不 同 风格 和 完全 不 同 的 演员 阵容 , 但 从 调查 研究 中 发 现 , 喜欢 电影 
1 的 用 户 也 会 对 电影 2 感 兴趣 。 实 际 上 , 电影 2 的 拍摄 和 制作 是 受到 电影 1 的 启发 ， 从 
视觉 角度 出 发 , 两 部 电影 的 海报 和 静止 帧 图 片 有 一 定 程度 的 相似 性 。 因 此 , 研究 人 员 认 
为 应 该 把 视觉 特征 作为 附加 信息 用 于 提升 推荐 系统 的 质量 。 为 此 , 作者 们 提出 了 一 种 基 
于 矩阵 分 解 和 图 像 特 征 的 推荐 算法 (Matrix Factorization--, 44653 7g MF+). 


关键 帧 截取 


图 6.11 电影 静止 帧 图 片 举例 


具体 来 说 , 假定 有 稀疏 偏好 矩阵 X ER, 其 中 m 代表 用 户 的 数量 , n 代表 商品 的 
数量 。 矩阵 X 里 的 每 个 元 素 zu 代表 用 户 u 对 商品 v 的 偏好 。 如 果 用 户 ww 对 商品 v BE 
有 点 评 , 那么 zw = 0. 1 是 所 有 能 观察 到 的 (u,v) 集合。 在 基于 评分 的 推荐 系统 里 , 偏好 
定义 成 离散 的 数值 [1,2,… ,5], 分 数 越 高 代表 偏好 越 强 。 我 们 用 zt, 表示 电影 v 的 海报 ， 
用 w 代表 多 张 静 止 帧 图 片 。 模 型 的 目标 是 基于 用 户 v 的 历史 评分 数据 预测 用 户 w 对 电 
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X v 的 偏好 ?sw， 可 以 写成 : 
Buy = pi by + b, + UL (Vey +n) (6-5) 


EH, Uw 是 用 户 u 的 偏好 向 量 , Ve, 是 电影 v 的 偏好 向 量 ,，/ 是 总 评分 偏 置 项 , b 和 
by 分 别 是 用 户 u 和 电影 v HRED. n 是 电影 的 视觉 特征 , 可 以 写成 : 


ee ING, eI? Esenco) 05s 


$v) (6-6) 


其 中 , bs。 表示 电影 v 和 s 的 相似 度 ，N(9,v) 表示 相似 度 大 于 0 的 电影 集合 ,yp(v) 是 缩 
MAL, 表示 海报 和 静止 帧 图 片 的 一 致 性 。 A 表示 海报 和 多 张 静 止 图 片 的 组 合 , 可 以 写 
成 : 


万 = (Xs, Vs) (6-7) 


其 中 , x, 表示 电影 v 的 海报 , vu 表示 多 张 静 止 帧 图 片 , 并 通过 下 列 模型 提取 图 像 特 征 。 


auo did 


图 6.12 Alex-Net 卷 积 网 络 
公式 (6-5) 里 的 参数 , 可 以 通过 优化 下 面 的 目标 函数 求 出 : 


: 2 2 2 2 2 
ma v. 35 Qu + 2W2, + Ag|[Weull? + Aal| Veo]? + A562, 
(uw) (6-8) 


+ (Euv — H — bu — WE, — UZ, (V ao +0))”) 


为 了 简化 符号 , 定义 ew = zw — fw。 对 于 每 个 用 户 和 电影 对 (wu)， 参 数 可 以 通过 下 面 
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公式 来 更 新 : 
bu = bu + M (eus — Arbu) 
Wav = Wer + A2(Cuvty — A2Wev) 
Usu = Usu + As(eu (Vv +N) — AsV eu 
(euv( ) ) (6-9) 
Vav = Vav + M(eu Usu — MV.) 
Vs € N(0,v) : 
05, = Osv + As (eu, Usu | N (8, v)| 3, — Xsgsu) 


As {和 1,… As} 是 优化 算法 的 学 习 步 长 。 


6.4 ”基于 循环 网 络 的 推荐 算法 


传统 的 推荐 系统 ， 比 如 基于 协同 过 滤 的 推荐 算法 等 , 都 假设 用 户 偏好 和 电影 属性 是 
静态 的 ， 但 本 质 上 ， 它 们 是 随 着 时 间 的 推移 而 缓慢 变化 的 。 例 如 ， 一 部 电影 的 受 欢 迎 
程度 可 能 由 外 部 事件 (如 获得 奥斯卡 奖 ) 所 改变 或 者 用 户 的 兴趣 随 年 龄 的 增长 而 改变 ， 
在 传统 的 算法 系统 中 ,这些 问题 经 常 被 大 家 忽视 。 如 图 6.13 所 示 ， 左 图 是 与 时 间 无 关 
的 推荐 系统 ， 用 户 偏好 和 电影 属性 都 是 静态 的 ， 评 分 数据 来 自分 布 p(rijlui,mj)。 相 反 ， 
右边 是 与 时 间 有 关 的 推荐 系统 , 用 户 和 电影 都 采用 马尔 科 夫 链 建 模 , 评 分 数据 来 自分 布 


prijlt|uilt, mju)e 
j ege 
o © 
Ó [35-9 


图 6.13 ÆR: 时 间 无 关 的 推荐 系统 。 右 图 : 时 间 相 关 的 推荐 系统 
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除了 时 序 问 题 ,很 多 传统 的 推荐 算法 使 用 未 来 的 评分 数据 来 预测 当前 的 电影 偏好 。 
Bl, 过 去 非常 著名 的 Netflix 竞赛 , 也 有 类 似 问 题 , 他 们 并 没有 按照 时 间 来 划分 训练 和 
测试 集 ， 而 是 把 数据 集 随机 打 乱 ， 用 插值 的 方法 来 预测 评分 。 在 一 定 程度 上 ,它们 都 违 
背 了 统计 分 析 中 的 因果 关系 , 因此 那些 研究 成 果 很 难 应 用 到 实际 场景 中 。 

通常 有 许多 方法 可 以 解决 时 序 和 因果 问题 , 例如 ,马尔 科 夫 链 模 型 、 指 数 平滑 模型 
等 方法 。 马 尔 科 夫 链 通 常 采 用 消息 传递 或 者 粒子 滤波 的 方式 求解 ， 比 如 基于 时 序 的 蒙特 
卡 洛 采 样 方法 等 , 这 些 方法 只 能 求 出 近似 解 , 也 不 适合 用 于 海量 数据 集 。 

进一步 , 数据 科学 家 提出 基于 循环 神经 网 络 分 别 对 用 户 和 电影 的 时 序 性 建 模 ,该 方 
法 也 满足 统计 分 析 中 的 因果 关系 , 根据 历史 的 评分 数据 预测 将 来 的 用 户 偏好 。 如 图 6.14 
所 示 , 通过 两 个 循环 神经 网 络 分 别 对 用 户 和 电影 的 时 序 性 建 模 , 用 户 的 隐藏 状态 依赖 于 
用 户 在 当前 时 刻 对 电影 的 评分 vic 和 前 一 时 刻 用 户 的 状态 ， 电 影 的 隐藏 状态 依赖 于 当 
前 时 刻 其 他 用 户 对 这 部 电影 的 评分 yje- 以 及 前 一 时 刻 电 影 的 状态 。 此 外 ， 该 模型 还 结 
合 了 通过 矩阵 分 解 得 到 的 用 户 和 电影 的 静态 属性 ui 和 mj。 


<new> Yit-2 


| | d 
BT ue NUT NN 
I | | | movie 


6.14 基于 循环 神经 网 络 的 推荐 系统 


具体 来 说 , 假定 wit 和 m; 分 别 代表 用 户 i、 电影 ; 在 第 t 时 刻 的 隐藏 状态 。 那么 用 
户 i 在 第 t 时 刻 对 电影 m 的 评分 可 以 写成 : 


Fijt = f (Uit, mj, ui, Mj) =< tit, hj > + < uim; (6-10) 
其 中 ， jt 和 Tg 可 以 当成 Uit 和 mit 的 仿 射 变换 ， 可 以 写成 : 


Git = Wasrtit + busr, Mit = Wmovmjt + bmov (6-11) 
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其 中 , wit 和 mi 表示 用 户外 电影 7 在 第 上 + 时刻 的 隐藏 状态 , 通过 长 短 时 记忆 网 络 (LSTM) 
建 模 : 


uit = LSTM(u; 1, Yit) (6-12) 
mj = LSTM(m;, 1. y;t) 


其 中 , ye 和 yj 分 别 代表 用 户 i 和 电影 7 在 第 上 时 刻 的 输入 , 可 以 写成 : 
Vit = Walzit, Inew-usr; Tt; Tt—1] (6-13) 


HP, lnew-usr = 1 和 Inew-mov = 1 分别 代表 新 用 户 和 新 电影 , n 代表 第 上 时 刻 的 时 钟 , Wa 
和 Wi 分 别 是 用 户 和 电影 的 参数 投影 矩阵 ，zit € RV 表示 用 户 i 在 第 t 时 刻 看 过 电影 的 
评分 , V 是 电影 数量 。zit E RU 表示 在 第 t 时 刻 所 有 用 户 对 电影 j 的 评分 , U 是 用 户 数 
量 。 

模型 参数 可 以 通过 优化 下 面 的 目标 函数 求 出 : 


min d — fis)? + R(8) (6-14) 
ijt 


其 中 ，R(b) 表示 模型 的 正则 化 项 。 


6.5 ”基于 生成 对 抗 网 络 的 推荐 算法 


迄今 为 之 GAN 在 推荐 上 的 应 用 还 是 届 指 可 数 , 因为 GAN 网 络 本 身 的 对 抗 设计 比较 
有 技巧 性 , 训练 的 稳定 性 不 高 , 目前 在 推荐 系统 上 的 实用 性 还 不 强 。 但 是 长 远 来 看 , GAN 
网 络 在 推荐 系统 中 应 该 还 是 有 巨大 的 潜力 的 , 有 很 多 “ 坑 ” 等 着 学 术 界 和 工业 界 去 填 平 。 
这 里 介绍 在 SIGIR 2017 的 高 分 论文 IRGAN 的 工作 , 该 论文 获得 了 2017 年 的 最 佳 论文 提 
K, 也 是 早期 GAN 在 推荐 系统 应 用 的 论文 。 GAN 原本 应 用 在 信息 搜索 任务 上 , 推荐 
系统 被 当成 是 排序 任务 中 的 一 种 ,这 里 我 们 只 重点 介绍 GAN 在 推荐 系统 上 的 应 用 。 需 
要 提 及 的 一 点 是 , 这 里 的 IRGAN 不 应 该 被 认为 是 推荐 场景 中 GAN 应 用 的 标准 范式 , 它 
仅仅 提供 一 种 思路 更 好 地 去 拓展 GAN 在 推荐 系统 中 的 应 用 。 它 是 一 个 初步 的 尝试 , 而 
不 应 作为 范例 而 限制 大 家 的 思路 。 
在 IRGAN 的 设计 中 , 生成 器 和 判别 器 都 被 理解 成 是 一 个 rank 模型 , 他们 的 实现 可 
以 是 任何 传统 的 或 者 基于 深度 学 习 的 打分 模型 。 任 务 将 用 户 商 品 的 购买 记录 分 成 测试 集 
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和 训练 集 ， 对 于 给 定 用 户 ，rank 模型 根据 训练 集 历史 交互 记录 以 及 用 户 / 商 品 本 身 的 特 
征 对 所 有 商品 打分 , 根据 分 数 排序 来 挑选 适合 用 户 的 商品 。 如 果 推 荐 的 商品 在 测试 集 
确实 被 用 户 购买 , 那么 用 户 与 该 商品 被 认为 一 个 正 例 , 否则 是 一 个 负 例 。 


但 是 生成 器 和 判别 器 的 目标 不 相同 , 对 于 给 定 的 一 个 用 户 ， 生 成 器 负责 在 待 排序 的 
候选 池 (通常 是 除 掉 正 例 之 后 的 所 有 样本 , 包含 负 例 , 还 有 在 半 监 督 任务 中 未 被 标注 的 
正 例 ) 中 将 潜在 高 质量 的 商品 挑选 出 来 , 用 以 混淆 当前 的 判别 器 。 因 为 此 处 推荐 的 商品 
是 一 个 离散 的 样本 , 论文 中 通过 policy gradient 的 方式 来 将 判别 器 的 奖励 和 惩罚 信号 传 
递 给 生成 器 。 挑 选 出 来 的 高 质量 商品 , 可 能 是 高 仿 正 例 的 负 例 ,也 可 能 是 未 被 标注 的 正 
例 。 判别 器 的 目标 就 是 为 了 区 分 真实 正 例 和 生成 器 推荐 的 商品 。 


iT 


判别 器 区 分 真 
实 正 例 还 是 采 
样 的 样本 
eoo00000 | eeeeeeee | 采样 部 分 样本 
真实 正 例 样本 会 
生成 器 打分 
会 
@@eeee.… | 候选 集合 
图 6.15 判别 器 


传统 的 GAN 仅仅 利用 生成 器 的 效果 ， 判 别 器 只 是 一 个 附属 产物 ， 与 之 不 同 的 是 ， 

IRGAN 的 生成 器 和 判别 器 作为 两 个 独立 的 打分 模型 , 都 可 以 有 实用 目的 。 因为 两 者 的 优 
化 目标 是 相左 的 , 意 即 生成 器 如 果 能 够 完全 骗 过 判别 器 , 那么 生成 器 的 预测 结果 完全 拟 
合 了 从 数据 特征 本 身 就 可 以 得 到 该 商品 是 否 为 相应 用 户 所 喜欢 ; 另 一 种 可 能 就 是 判别 器 
基本 能 够 完全 理解 理解 正 例 和 生成 器 生成 的 商品 之 间 的 差异 。 我 们 来 分 析 这 两 种 结果 。 
在 IRGAN 的 设计 中 , 生成 器 和 判别 器 是 一 个 零 和 博弈 问题 , 优化 目标 是 相反 的 , 所 以 是 
一 个 此 消 彼 长 的 过 程 。 对 于 生成 器 而 言 , 它 会 尽力 去 拟 合 正 例 的 生成 分 布 , 如 果 在 一 个 
半 监 督 的 场景 下 , 样本 有 很 多 虽然 是 正 例 , 但 是 未 被 标注 , 淹没 在 “ 负 例 ”候选 池 当 中 ， 
这 样 生成 器 很 大 可 能 就 从 候选 “ 负 例 ” 池 中 找到 了 一 些 潜在 的 正 例 , 真实 的 正 例 和 潜在 
未 被 标注 的 正 例 一 起 喂 给 判别 器 , 那么 判别 器 很 难 学 习 到 正 负 例 之 间 的 差异 , 最 后 产生 
接近 于 上 里 猜 的 结果 。 
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pel. 判别 器 对 采样 
的 样本 反馈 
dlli 
00000000 采样 部 分 样本 
会 
tta 
会 
000090... 候选 集合 
图 6.16 ”生成 器 


如 果 当 前 的 推荐 任务 是 一 个 监督 任务 ,而 不 是 一 个 半 监 督 的 任务 ， 即 所 有 的 正 例 都 
已 经 被 标注 ， 不 存在 未 被 模型 感知 的 正 例 样本 ,那么 生成 器 的 候选 集合 只 会 有 负 例 ， 喂 
给 判别 器 与 它 基本 无 法 混淆 ,判别 器 一 直 是 在 正确 学 习 一 个 正 例 和 负 例 的 差异 , 那么 判 
别 器 一 般 来 说 会 表现 很 好 。 每 次 会 喂 给 当前 模型 更 难 判别 的 歧义 样本 ,额外 地 增加 当前 
分 得 不 好 的 负 例 给 判别 器 ,类 似 于 常用 的 集成 学 习 boost 的 思路 , 给 分 得 不 好 的 样本 以 
更 大 的 权重 。 如 果 我 们 的 判别 器 和 生成 器 是 相同 的 模型 ， 让 其 参数 都 是 共享 的 , 就 直接 
可 以 退化 成 一 个 Dynamic Negative Sample 的 经 典 tric, 

我 们 将 这 个 任务 用 一 个 形象 的 例子 来 说 明 它 在 半 监 督 任务 中 的 潜力 。 如 图 6.17 所 示 
是 一 个 判别 器 的 打分 分 布 图 ， 横 坐标 随机 分 布 一 些 样本 (观察 到 的 正 例 ， 以 及 未 被 标注 
的 数据 , 其 可 能 是 未 被 标注 的 正 例 , 也 可 以 是 负 例 )， 纵 坐标 是 判别 器 的 打分 。 两 个 任务 
分 别 是 ,判别 器 要 把 观察 到 的 正 例 和 其 他 样本 分 离开 , 生成 器 采样 生成 部 分 数据 获得 判 
别 器 的 奖励 或 者 惩罚 〈 如 果 采 样 全 部 数据 的 效率 会 很 低 )， 生 成 器 采样 的 数据 在 图 中 的 
标记 为 “Obsered positive samples 〈 观 察 到 的 正 例 )。 判 别 器 会 尽量 把 观察 到 的 正 例 往 上 
提 ， 且 把 其 他 的 样本 (未 观察 的 正 例 和 负 例 ) 往 下 按 ,在 往 上 提 和 往 下 按 的 同时 也 会 影 
响 到 其 他 样本 的 打分 。 一 般 来 说 , 判别 器 没有 差别 地 把 未 观察 到 到 正 例 和 负 例 一 起 往 下 
按 , 但 是 与 此 同时 也 会 将 正 例 往 上 提 ， 由 于 观察 到 的 正 例 和 未 观察 到 正 例 有 相似 的 特征 
和 表示 , 因此 会 有 更 多 的 协同 性 , 所 以 在 向 上 提 的 过 程 中 一 些 未 观察 到 的 正 例 也 会 跟着 
正 例 一 起 获得 更 高 的 得 分 。 对 于 生成 器 而 言 ， 生成 器 会 更 具 生 成 的 过 的 得 分 采样 出 一 个 


(Optimizing top-n collaborative filtering via dynamic negative item sampling. SIGIR 2013(pp. 785-788). 
ACM. 
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小 集合 , 根据 小 集合 里 的 样本 来 得 到 判别 器 奖励 。 一 般 来 说 ,生成 器 会 把 高 分 负 例 往 上 
提 以 获得 更 高 的 判别 器 奖励 。 如 图 6.17 所 示 , 生成 的 四 个 样本 , 在 判别 器 中 的 得 分 越 高 ， 
则 会 得 高 更 好 的 奖励 。 最 后 , 希望 生成 器 可 以 通过 打分 模型 (生成 ) 采样 所 有 高 分 的 样 
本 , 这 样 的 打分 模型 会 较 好 地 拟 合 一 个 半 监 督 的 正 例 分 布 。 


@ Observed positive samples 


@ Unobserved positive samples 


@ Unobserved negative samples Discrminafor 
Decision Boundary 

Q @ cenerated unobserved samples 

A Upward force from REINFORCE, 


by Downward force from knocker 


The underlying correlation 
between positive samples 


图 6.17 IRGAN 说 明 


6.5.1 IRGAN 的 代码 实现 


为 了 简单 地 表现 模型 的 对 抗 , IRGAN 的 生成 器 和 判别 器 是 基于 一 个 最 简单 的 隐 式 矩 
阵 分 解 模型 ， 实 际 上 生成 器 和 判别 器 可 以 是 任意 复杂 的 模型 。 我 们 定义 一 个 基 类 的 MF 
模型 如 下 : 


class MF(object): 
def __init__(self, itemNum, userNum, emb dim, lamda, initdelta=0.05, 
learning rate-0.05): 
with tf.variable scope('generator'): 
self.user embeddings - tf.Variable( 
tf.random uniform([userNum, emb dim], minval--initdelta, 
maxval-initdelta, 
dtype-tf.float32)) 
self.item embeddings = tf.Variable( 
tf.random uniform([itemNum, emb dim], minval--initdelta, 
maxval-initdelta, 
dtype-tf.float32)) 


self.item bias - tf.Variable(tf.zeros([itemNum])) 


self.params = [self.user embeddings, self.item embeddings, self.item_ 
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bias] 


self.u = tf.placeholder (tf.int32) 
self.i = tf.placeholder (tf.int32) 
self.reward = tf.placeholder (tf.float32) 


self.u_embedding = tf.nn.embedding lookup(self.user embeddings, self. 
u) 

self.i embedding = tf.nn.embedding lookup(self.item embeddings, self. 
i) 


self.i bias = tf.gather(self.item bias, self.i) 


self.optimizer = tf.train.GradientDescentÜptimizer(learning rate) 


用 户 和 商品 都 嵌入 到 一 个 相同 维度 的 隐 式 空间 。 
然后 我 们 分 别 定义 生成 器 和 判别 器 ,判别 器 定义 如 下 : 


def 


--init__ (self, itemNum, userNum, emb_dim, lamda, initdelta=0.05, 
learning rate-0.05): 
super(DIS, self). init. (itemNum, userNum, emb dim, lamda, initdelta 


70.05, learning .rate-0.05) 


self.label = tf.placeholder (tf.float32) 


self.pre logits = tf.reduce sum(tf.multiply (self.u embedding, self.i_ 
embedding), 1) * self.i bias 
self.loss - 
tf.nn.sigmoid cross entropy .with logits(labels-self.label, 
logits-self.pre logits) + 
lamda * ( 
tf.nn.12.loss(self.u embedding) + tf.nn.12 loss(self.i embedding) 


+ tf.nn.12 loss(self.i bias) 


self.update - self.optimizer.minimize(self.loss, var list-self.params 


) 
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self.reward logits = tf.reduce_sum(tf.multiply (self.u_embedding, self 
.i.embedding), 
1) * self.i bias 


self.reward - 2 * (tf.sigmoid(self.reward logits) - 0.5) 


# for test stage, self.u: [batch_size] 
self.all rating - tf.matmul(self.u embedding, self.item embeddings, 
transpose a-False, 


transpose b-True) * self.item bias 


除去 正常 的 二 分 类 , 判别 器 还 需 对 生成 器 生成 的 商品 提供 奖励 。 
生成 器 是 一 个 生成 模型 , 不 直接 需要 真实 的 数据 标签 , 会 通过 判别 器 的 奖励 来 指导 
自己 生成 的 过 程 。 


class GEN(MF): 


def 


_-init__(self, itemNum, userNum, emb_dim, lamda, initdelta=0.05, 
learning _rate=0.05): 
super(GEN, self).__init__(itemNum, userNum, emb_dim, lamda, 


initdelta=0.05, learning_rate=0.05) 


self.all_logits = tf.reduce_sum(tf.multiply (self.u_embedding, self. 
item_embeddings), 1) + self.item bias 
self.i_prob = tf.gather( 
tf .reshape (tf.nn.softmax(tf.reshape(self.all_logits, [1, -1])) 
» ED, 
self.i) 
self.loss = -tf.reduce_mean(tf.log(self.i_prob) * self.reward) + 
lamda * ( 
tf.nn.12 loss(self.u embedding) + tf.nn.12 loss(self.i embedding) 
+ tf.nn.12_loss(self.i_bias)) 


self.update-self.optimizer.minimize(self.loss, var_list=self.params) 


# for test stage, self.u: [batch_size] 
self.all rating = tf.matmul(self.u embedding, self.item embeddings, 
transpose a-False, 


transpose b-True) + self.item bias 
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和 迭代 训练 的 代码 如 下 : 


for d_epoch in range(100) : 
if d epoch % 5 == 
generate for d(sessi, generator, DIS TRAIN FILE) 
train size = ut.file len(DIS. TRAIN. FILE) 
input user, input item, input label - ut.get batch data(DIS TRAIN FILE, 
index, BATCH_SIZE) 
- = sess2.run(discriminator.update, 
feed dict-(discriminator.u: input user, discriminator.i: 
input item, 
discriminator.label: input label)) 
for g epoch in range(50): # 50 
for u in user. pos. train: 
sample lambda - 0.2 
pos = user. pos.train[u] 
rating = sessi.run(generator.all logits , {generator.u: u}) 
exp.rating = np.exp(rating) 
prob = exp_rating / np.sum(exp rating) # prob is generator 
distribution p_\theta 
pn = (1 - sample. lambda) * prob 
pn[pos] += sample lambda * 1.0 / len(pos) 
# Now, pn is the Pn in importance sampling, prob is generator 
distribution p_\theta 
sample = np.random.choice(np.arange(ITEM NUM), 2 * len(pos), p=pn) 
# Get reward and adapt it with importance sampling 
reward = sess2.run(discriminator.reward, {discriminator.u: u, 


discriminator.i: sample}) 


reward = reward * prob[sample] / pn[sample] 
- = sessi.run(generator.update ,{generator.u: u, generator.i: sample, 


generator.reward: reward}) 


第 / a 
推荐 系统 架构 设计 


作为 大 数据 时 代 最 重要 的 几 个 信息 系统 之 一 , 推荐 系统 主要 有 下 面 几 个 作用 。 第 一 ， 
提升 用 户 体验 。 通 过 个 性 化 推荐 ， 帮 助 用 户 快速 找到 感 兴趣 的 信息 。 第 二 ， 提 高 产品 销 
售 。 推 荐 系统 帮助 用 户 和 产品 建立 精准 连接 ， 从 而 提高 产品 转化 率 。 第 三 ， 发 气 长 尾 价 
值 。 根据 用 户 兴趣 推荐 ,使 得 平时 不 是 很 热门 的 商品 可 以 销售 给 特定 的 人 群 。 第 四 , 方 
便 移动 互联 网 用 户 交互 。 通 过 推荐 , 减少 用 户 操作 , 主动 帮助 用 户 找到 感 兴趣 的 内 容 。 

为 了 更 好 地 服务 用 户 ， 推 荐 系统 需要 从 业务 的 目标 出 发 ， 针 对 不 同 功能 进行 定制 。 
本 章 介绍 推荐 系统 的 架构 设计 。 首 先 , 第 7.1 节 给 出 一 个 推荐 系统 基本 模型 ， 在 此 基础 
上 ,第 7.2 节 给 出 常见 的 推荐 系统 架构 。 接 着 , 第 7.3 节 列 举 一 些 常用 的 软件 , 供 进行 架 
构 设 计时 选用 。 最 后 , 第 7.4 节 陈 述 了 一 些 常见 的 问题 。 


7.1 ”推荐 系统 基本 模型 


从 本 质 上 来 说 ,推荐 系统 是 监督 学 习 的 一 个 应 用 ， 既 然 如 此 ， 它 就 离 不 开 监督 学 习 
的 基本 模型 。 如 图 7.1 所 示 , 监督 学 习 分 为 学 习 和 预测 两 个 过 程 。 在 学 习 过 程 中 , 学 习 系 
统 利 用 给 定 的 训练 样本 , 通过 训练 得 到 一 个 模型 ， 这 个 模型 随后 会 被 用 于 预测 系统 的 预 
测 。 在 预测 过 程 中 , 预测 系统 对 于 给 定 的 测试 样本 ,由 模型 给 出 相应 的 预测 结果 。 

推荐 系统 的 目的 , 就 是 通过 学 习 系 统 有 效 地 训练 模型 , 使 得 预测 系统 的 结果 贴近 测 
试 样本 真实 的 结果 。 预测 的 内 容 , 可 以 是 对 一 条 资讯 、 一 首 歌 或 是 一 个 视频 的 喜欢 程度 ， 
也 可 以 是 购买 某 个 商品 的 概率 。 推 荐 系统 的 优化 ,在 于 通过 任何 有 力 的 方法 〈 模 型 、 算 
法 、 数 据 、 特 征 ), 来 提高 预测 结果 的 准确 度 ， 这 个 系统 更 懂 用 户 , 给 用 户 推荐 的 物品 更 
贴近 用 户 真 实 的 喜好 ， 从 而 提高 商品 销售 和 用 户 体验 。 

比如 , 图 中 简单 的 例子 , 学 习 系 统 的 输入 是 5 个 不 同 用 户 的 行为 , 对 于 男性 用 户 A 
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他 喜欢 的 是 《王者 荣耀 》 这 个 游戏 , 对 于 女性 用 户 B, 她 喜欢 的 则 是 《奇迹 暧 暧 》， 那么 
对 于 这 5 个 用 户 统计 得 到 的 模型 是 男性 用 户 喜欢 《王者 荣 泡 》 的 概率 是 0.67, 而 女性 用 
户 喜欢 《奇迹 暧 暧 》 的 概率 是 1。 有 了 这 个 简单 的 模型 以 后 , 如 果 在 预测 系统 中 有 一 个 新 
的 用 户 请 求 ,该 请 求 来 自 一 个 男性 用 户 ,那么 按照 前 面 的 模型 ,会 根据 概率 的 大 小 ,把 
《王者 荣耀 》 推荐 给 这 个 用 户 。 


王者 荣 焰 | 男 =0.67 
奇迹 暧 暧 | 女 =1 
欢乐 斗 地 主 | 男 =0.33 


图 7.1 监督 学 习 基本 模型 


在 实际 的 推荐 系统 中 ,学 习 系 统 处 理 的 用 户 数 据 量 会 更 大 , 数据 的 维度 也 更 多 ,用 
到 的 推荐 模型 也 会 更 复杂 , 常用 的 有 协同 模型 、 内 容 模型 和 知识 模型 。 其 中 , 协同 模型 主 
要 通过 我 的 朋友 喜欢 什么 来 猜测 我 喜欢 什么 ; 内 容 模型 则 是 根据 物品 本 身 来 预测 用 户 喜 
欢 A 所 以 也 可 能 喜欢 B; 知识 模型 则 是 根据 用 户 的 限定 条 件 , 按照 他 的 需要 进行 推荐 。 


推荐 系统 架构 设计 ， 是 在 监督 学 习 基本 模型 的 基础 上 ,按照 业务 的 需要 定制 , 将 训 
练 和 预测 过 程 中 的 每 个 步骤 细 化 ， 将 训练 和 预测 过 程 中 使 用 到 的 模型 、 特 征 、 工 具 都 实 
例 化 ， 从 而 打磨 出 一 个 适合 业务 需要 的 推荐 系统 。 比 如 , 在 学 习 系统 中 ， 需 要 对 数据 进 
行 上 报 、 清 洗 、 特 征 构造 等 操作 ， 就 需要 有 一 个 用 于 存储 和 处 理 数据 的 平台 。 取 决 于 数 
据 量 的 大 小 和 数据 类 型 的 不 同 , 可 能 需要 对 学 习 系 统 进行 定制 。 在 预测 系统 中 , 需要 将 
预测 请 求 服务 化 , 封装 成 API 供 业 务 调用 。 同 时 , 还 需要 保证 线 上 服务 的 可 靠 性 和 可 扩 
展 性 。 
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接 下 来 的 小 节 中 , 我 们 会 先 介绍 推荐 系统 常用 的 架构 ， 然 后 在 了 解 了 这 些 架构 的 基 
础 上 介绍 每 个 模块 常用 的 一 些 组 件 , 最 后 介绍 推荐 系统 的 一 些 常见 问题 。 


7.2 ”推荐 系统 常见 架构 


推荐 系统 的 架构 离 不 开 实际 的 业务 ， 本 节 介绍 的 几 种 推荐 系统 架构 ， 并 不 是 互相 独 
立 的 关系 , 实际 的 推荐 系统 可 能 会 用 到 其 中 一 种 或 者 几 种 的 架构 。 在 实际 设计 的 过 程 中 ， 
读者 可 以 把 本 文 介绍 的 架构 作为 一 个 设计 的 起 点 , 更 多 地 结合 自身 业务 特点 进行 独立 思 
25, 从 而 设计 出 适合 自身 业务 的 系统 。 

根据 响应 用 户 行为 的 速度 不 同 , 推荐 系统 可 以 大 致 分 为 基于 离线 训练 和 在 线 训练 的 
推荐 系统 。 根 据 使 用 的 机 器 学 习 方 法 不 同 , 又 可 以 分 为 使 用 传统 机 器 学 习 和 使 用 深度 学 
习 的 推荐 系统 。 另外 ,由 于 业务 的 重要 性 , 再 单独 介绍 一 个 类 别 : 面向 内 容 的 推荐 系统 。 
每 一 节 的 最 后 , 会 简单 介绍 一 些 实际 系统 设计 中 遇 到 的 常见 问题 , 以 供 设计 时 进行 参考 。 


7.2.1 ”基于 离线 训练 的 推荐 系统 架构 设计 


基于 离线 训练 的 推荐 系统 架构 是 最 常见 的 一 种 推荐 系统 架构 。 这 里 的 “离线 ”训练 
指 的 是 使 用 历史 一 段 时 间 (比如 一 周 或 者 几 周 ) 的 数据 进行 训练 ,模型 迭代 的 周期 较 长 
(一 般 以 小 时 为 单位 )。 模 型 拟 合 的 是 用 户 的 中 长 期 兴趣 。 代 表 的 场景 有 手机 应 用 市 场 、 
音乐 推荐 等 。 相对 应 地 , “在线 ”训练 指 的 是 增 量 的 、 实 时 的 训练 要 求 模型 对 于 每 个 训 
练 样本 快速 地 响应 。 比 如 ,用 户 当前 观看 了 一 个 美食 的 视频 并 且 停 留 了 很 长 时 间 ， 那么 
下 一 个 视频 推荐 系统 察觉 到 你 短期 的 兴趣 后 可 以 给 你 推荐 更 多 相似 的 视频 。 训 练 数据 的 
更 新 频率 以 秒 为 单位 。 代 表 场 景 有 资讯 、 购 物 、 短 视频 推荐 等 。 

基于 离线 训练 的 推荐 系统 中 使 用 的 常用 的 算法 有 : 逻辑 回归 (Logistic Regression), 
梯度 提升 决策 树 (Gradient Boosting Decison Tree) 和 因子 分 解 机 (Factorization Machine) 
等 。 

如 图 7.2 所 示 , 一 个 典型 的 基于 离线 训练 的 推荐 系统 架构 由 数据 上 报 、 离 线 训 练 、 在 
线 存储 、 实 时 计算 和 A/B 测试 这 几 个 模块 组 成 。 其 中 , 数据 上 报 和 离线 训练 组 成 了 监督 
学 习 中 的 学 习 系 统 , 而 实时 计算 和 A/B 测试 组 成 了 预测 系统 。 另 外 ,除了 模型 之 外 , 还 
有 一 个 在 线 存 储 模 块 , 用 于 存储 模型 和 模型 需要 的 特征 信息 供 实时 计算 模块 调用 。 图 中 
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的 各 个 模块 组 成 了 训练 和 预测 两 条 数据 流 , 训练 的 数据 流 搜集 业务 的 数据 最 后 生成 模型 
存储 于 在 线 存储 模块 ; 预测 的 数据 流 接受 业务 的 预测 请 求 , 通过 A/B 测试 模块 访问 实时 
计算 模块 获取 预测 结果 。 取 决 于 业务 的 大 小 , 一 般 来 说 训练 的 数据 流 需要 处 理 大 量 的 训 
练 数据 , 更 新 的 周期 较 长 , 以 小 时 来 计 , 所 以 对 应 的 这 种 架构 称 为 基于 离线 训练 的 架构 ; 
而 预测 的 数据 流 一 般 用 于 互联 网 线 上 的 业务 , 对 延 时 的 要 求 在 几 十 毫秒 以 内 , 这 也 使 得 
对 于 训练 和 预测 两 条 数据 流 上 的 各 个 模块 有 不 同 的 架构 要 求 。 下 面具 体 看 一 下 每 个 模块 
的 作用 。 


图 7.2 基于 离线 训练 的 推荐 系统 架构 设计 


数据 上 报 数据 上 报 模 块 的 作用 是 搜集 业务 数据 组 成 训练 样本 。 一 般 分 为 收集 、 验 证 、 
清洗 和 转换 儿 个 步骤 。 首先, 需要 收集 来 自 业务 的 数据 。 业务 驱动 , 从 物品 、 用 户 、 场景 
几 个 维度 收集 , 核心 数据 样本 要 保证 质量 。 量化 一 切 , 越 细 越 好 。 其 次 , 对 上 报 的 数据 进 
行 准确 性 的 验证 ， 避 免 上 报 逻 辑 错误 、 数 据 错位 或 数据 缺失 等 问题 。 第 三 ,为 了 保证 数 
据 的 可 信 度 ,需要 清理 脏 数 据 。 常见 的 数据 清洗 有 : 空 值 检查 、 数 值 异 常 、 类 型 异常 、 数 
据 去 重 等 。 最 后 ， 通 过 数据 转换 ， 将 收集 的 数据 转化 为 训练 所 需要 的 样本 格式 ， 保 存 到 
离线 存储 模块 。 数据 的 质量 非常 重要 ,推荐 系统 的 预测 结果 是 否 准确 , 一 方面 取决 于 模 
型 的 强 弱 ,更 重要 的 是 训练 数据 的 质量 和 数量 。 如 果 数 据 质 量 不 行 , 再 好 的 模型 也 没 法 
得 到 好 的 预测 结果 , 所谓“ 垃圾 进 垃圾 出 (Garbage In Garbage Out) ”。 


离线 训练 ”离线 训练 模块 又 细 分 为 离线 存储 和 离线 计算 。 实 际 业务 中 使 用 的 推荐 系统 一 
般 都 需要 处 理 海量 的 用 户 行为 数据 , 所 以 离线 存储 模块 需要 有 一 个 分 布 式 的 文件 系统 或 
者 存储 平台 来 存储 这 些 数据 。 离线 计算 常见 的 操作 有 : 样本 抽样 、 特 征 工程 、 模 型 训练 、 
相似 度 计算 等 。 
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图 7.3 数据 上 报 模块 


样本 抽样 通过 合理 地 设计 样本 , 为 模型 训练 提供 高 质量 的 输入 ， 从 而 训练 出 一 个 比 
较 理想 的 模型 。 首 先 需要 合理 定义 正 负 样本 , 实际 业务 中 , 经 常会 遇 到 正 负 样本 不 均衡 
的 情况 , 一 方面 可 以 通过 惩罚 权重 和 组 合 等 方法 解决 ,一 方面 要 结合 业务 理解 ,合理 设 
计 正 负 样 本 。 其 次 , 设计 样本 时 应 尽量 保证 用 户 样本 数 的 均衡 。 对 于 恶意 的 刷 流量 、 机 
器 人 用 户 , 通过 样本 去 重 保证 用 户 样本 数 的 均衡 。 第 三 , 适当 考虑 样本 的 多 样 性 。 通 过 
采集 和 当前 推荐 算法 独立 无 关 的 用 户 样本 来 丰富 样本 来 源 。 

特征 工程 利用 领域 相关 的 知识 ， 从 原始 数据 中 获取 尽 可 能 多 的 信息 , 组 成 特征 用 于 
提高 模型 训练 效果 。 首 先 ， 特征 选择 通过 评价 函数 、 停 止 准 则 、 验 证 过 程 等 步骤 ， 从 特 
征集 合 中 挑选 一 组 最 具 统计 意义 的 特征 子 集 。 其 次 ,特征 提取 通过 成 分 分 析 、 判 别 分 析 
等 方法 , 对 原始 特征 进行 转换 和 组 合 , 构建 新 的 具有 业务 或 统计 意义 的 核心 特征 。 第 三 ， 
特征 组 合 通过 多 模 态 embedding 等 方法 , 将 来 自用 户 、 物品 和 背景 的 特征 向 量 组 合 到 一 
起 , 达到 信息 互补 。 

有 了 前 两 步 之 后 , 模型 训练 利用 给 定 的 数据 集 , 通过 训练 得 到 一 个 模型 ,用 于 描述 
输入 和 输出 变量 之 间 的 映射 关系 。 实 际 业务 中 , 考虑 到 需要 处 理 大 规模 的 训练 集 , 一 般 
会 选择 可 以 分 布 式 训 练 的 近似 线性 时 间 的 算法 。 


图 7.4 离线 训练 模块 
在 线 存储 除了 图 7.1, 图 7.2 的 推荐 系统 中 提 到 的 模块 , 还 有 一 个 在 线 存储 的 模块 , 这 是 
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为 线 上 的 服务 对 于 时 延 都 有 严格 的 要 求 。 比 如 , 某 个 用 户 打 开 手 机 APP, 他 肯定 希望 
APP 能 够 快速 响应 ,如 果 耗 时 过 长 ,就 会 影响 用 户 的 体验 。 一般 来 说 , 这 就 要 求 推荐 系 
统 在 几 十 毫秒 以 内 处 理 完 用 户 请 求 返 回 推荐 结果 ,所 以 , 针对 线 上 的 服务 , 需要 有 一 个 
专门 的 在 线 存 储 模 块 , 负责 存储 用 于 线 上 的 模型 和 特征 数据 。 一般 来 说 ,在 线 存储 模块 
需要 使 用 本 机 内 存 或 者 分 布 式 内 存 。 为 了 在 线 存储 能 够 尽 可 能 地 快 , 在 开源 软件 的 基础 
E, 还 可 以 进行 一 些 定制 , 比如 , 采用 缓存 策略 、 增 量 策略 、 延 迟 过 期 策略 , 使 用 固态 硬 
#£ (Solid State Drives) 等 。 


本 机 内 存 
在 线 存储 
分 布 式 内 存 
本 地 磁盘 à 离线 存储 


分 布 式 文件 系统 
图 7.5 推荐 系统 中 的 存储 分 层 


实时 推荐 ”实时 推荐 模块 的 功能 是 对 来 自 业 务 的 新 请 求 进行 预测 。 比 如 , 用 户 打 开 手 机 
应 用 市 场 APP, APP 后 台 会 发 送 一 个 请 求 给 服务 器 , 服务 器 收 到 请 求 后 根据 用 户 以 前 在 
应 用 市 场 的 历史 行为 猜测 其 喜好 , 然后 返回 一 个 推荐 的 应 用 列表 给 手机 APP, 再 在 APP 
界面 呈现 给 用 户 。 这 个 过 程 中 , 实时 计算 模块 需要 进行 以 下 计算 : (1) 获取 用 户 特征 , 系 
统 根据 请 求 中 的 用 户 ID, 从 在 线 存 储 模块 中 读 取 用 户 的 画像 以 及 历史 行为 , 构建 出 该 用 
户 的 模型 特征 ; (2) 调用 推荐 模型 ， 结 合用 户 特征 调用 推荐 系统 的 算法 模型 ， 得 到 用 户 
对 某 个 APP 候选 池 中 每 个 物品 的 喜好 概率 ; (3) 结果 排序 , 对 候选 池 的 打分 结果 进行 排 
Fe. 然后 返回 结果 列表 给 手机 APP。 从 前 面 的 例子 中 可 以 看 出 , 实时 计算 模块 需要 从 在 
线 存 储 模 块 读 取 很 多 的 数据 , 同时 需要 在 很 短 时间 内 完成 大 量 的 模型 打分 工作 , 所 以 对 
于 该 模块 有 很 高 的 性 能 要 求 。 一 般 来 说 , 该 模块 需要 有 一 个 分 布 式 的 计算 框架 来 完成 计 
算 任务 。 

在 实际 应 用 中 , 因为 业务 的 物品 列表 太 大 ,如 果实 时 计算 对 每 一 个 物品 使 用 复杂 的 
模型 进行 打分 , 就 有 可 能 耗 时 过 长 而 影响 用 户 满意 度 。 所 以 , 一 种 常见 的 做 法 是 将 推荐 
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列表 生成 分 为 召回 和 排序 两 步 。 召 回 的 作用 是 从 大 量 的 候选 物品 中 (例如 上 百 万 ) 筛选 
出 一 批 用户 较 可 能 喜欢 的 候选 集 (一 般 是 几 百 )。 排 序 的 作用 是 对 召回 得 到 的 相对 较 小 
的 候选 集 使 用 排序 模型 进行 打分 。 更 进一步 , 在 排序 得 到 推荐 列表 后 , 为 了 多 样 性 和 运 
营 的 一 些 考虑 , 还 会 加 上 第 三 步 重 排 过 滤 , 用 于 对 精 排 后 的 推荐 列表 进行 处 理 。 重 
排 过 滤 步 又 会 给 用 户 提供 一 些 探索 性 的 内 容 , 避免 用 户 在 平台 上 看 到 的 内 容 过 于 同 质 化 
而 失去 兴趣 , 同时 过 滤 掉 低俗 和 违法 的 内 容 , 保持 一 个 良好 的 平台 环境 。 常 见 的 架构 如 
图 7.6 所 示 。 


召回 排序 重 排 过 滤 


图 7.6 在 线 预测 的 几 个 阶段 


A/B 测试 对 于 互联 网 产品 来 说 ，A/B 测试 基本 上 是 一 个 必 备 的 模块 ， 对 于 推荐 系统 
来 说 也 不 例外 , 它 可 以 帮助 开发 人 员 评 估 新 算法 对 客户 行为 的 影响 。 除 了 离线 的 指标 外 ， 
一 个 新 的 推荐 算法 上 线 之 前 一 般 都 会 经 过 A/B 测试 来 测试 新 算法 的 有 效 性 。 在 A/B 测 
试 模块 中 ,我 们 需要 设置 两 组 或 者 多 组 用 户 ， 一 组 设置 为 对 照 组 ,采用 已 有 的 算法 ， 另 
外 一 组 或 者 几 组 为 实验 组 , 采用 新 版 算法 。 通 过 对 比 不 同 算法 的 核心 指标 (比如 点 击 率 
或 者 用 户 时 长 ), 来 确认 哪个 算法 更 好 。A/B 测试 的 目的 是 通过 流量 分 割 和 科学 采样 , 在 
小 流量 测试 中 获得 具有 代表 性 的 实验 结论 。 另外 , A/B 测试 模块 还 应 包含 数据 可 视 化 的 
功能 , 将 统计 的 结果 尽快 地 呈现 给 算法 开发 者 , 帮助 他 们 快速 地 分 析 和 定位 问题 。 


除了 上 述 几 个 模块 之 外 , 在 实际 设计 过 程 中 , 还 需要 注意 一 些 问 题 。 


推荐 结果 反馈 ”在 数据 上 报 模块 搜集 的 数据 中 , 还 需要 包括 对 推荐 结果 的 反馈 。 这 样 做 
的 好 处 是 , 通过 分 析 不 同 算法 的 推荐 结果 , 完善 数据 的 反馈 机 制 , 不 断 优化 较 差 的 算法 ， 
从 而 形成 数据 闭环 。 这 里 指 的 不 同 的 推荐 算法 , 可 以 是 完全 不 同 的 两 个 模型 , 也 可 以 是 
同一 个 模型 的 不 同 参数 配置 , 又 或 者 是 同一 个 模型 使 用 了 不 同 的 特征 。 通过 对 比 不 同 推 
荐 算法 得 到 的 反馈 统计 结果 ,可 以 分 析 不 同 算法 的 优 劣 , 从 而 帮助 算法 开发 者 来 调 优 模 
型 的 参数 和 特征 。 
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模型 更 新 的 健壮 性 ”作为 个 性 化 服务 的 重要 一 环 , 大 多 数 的 推荐 系统 需要 在 线 上 提供 不 
间断 的 服务 。 另 一 方面 ,因为 推荐 系统 例 行 的 模型 训练 ,每 天 或 者 每 隔 数 个 小 时 都 会 更 
新 新 的 模型 。 为 了 保证 服务 24 小 时 可 用 ， 这 就 要 求 系统 在 模型 更 新 的 时 候 仍然 能 够 正 
常服 务 。 程 序 开发 的 时 候 ， 需 要 在 模型 计算 的 时 候 ,考虑 即使 在 某 些 特征 缺失 或 者 不 匹 
配 的 情况 下 , 也 能 够 最 大 程度 上 返回 较 准确 的 计算 结果 。 


协同 内 容 知识 模型 库 
模型 模型 模型 


L SEA) WA uu 


图 7.7 推荐 系统 通用 性 设计 


海量 服务 ”和 其 他 互联 网 服务 一 样 ,推荐 系统 同样 需要 服务 于 海量 的 用 户 , 这 就 使 得 这 
个 系统 的 线 上 服务 需要 做 到 高 可 靠 、 高 吞吐 、 低 延迟 。 几 种 常见 的 优化 方案 有 : (1) 过 载 
保护 , 对 于 突 发 的 业务 流量 进行 过 载 保护 , 防止 服务 的 雪崩; (2) 流 式 计算 , 通过 分 布 式 
流 式 计 算 框架 应 对 大 量 在 线 请 求 ; (3) 共享 内 存 组 件 , 对 于 一 切 常用 的 模型 数据 , 可 以 考 
虑 放 在 共享 内 存 中 , 使 得 在 线 存储 部 分 的 性 能 开销 尽 可 能 降低 。 


通用 性 设计 在 实际 业务 中 , 一 套 推荐 系统 常常 会 用 于 支持 众多 的 业务 和 场景 。 对 于 不 
同 的 场景 , 用 到 的 数据 、 算 法 和 模型 都 会 有 很 多 不 同 之 处 ,如果 对 于 每 个 场景 都 从 头 开 
发 , 将 会 耗费 非常 多 的 时 间 和 人 力 。 那 么 有 没有 好 的 方法 使 得 同一 个 推荐 算法 可 以 复 用 
到 不 同 的 推荐 场景 呢 ? 这 就 需要 对 推荐 算法 库 进行 通用 化 设计 。 我 们 将 推荐 系统 通常 划 
分 为 四 个 部 分 : 样本 库 、 特征 库 、 算法 和 模型 。 其 中 , 样本 库存 储 从 流水 日 志 中 提取 的 用 
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户 行为 和 特征 ; 特征 库存 储 用 户 和 物品 的 属性 等 特征 ; 算法 是 用 于 训练 模型 用 到 的 机 器 
学 习 算 法 ; 模型 库存 储 的 是 从 样本 和 特征 计算 得 到 的 训练 模型 。 为 了 不 同 的 算法 可 以 用 
于 不 同 的 样本 和 特征 ,如 图 7.7 所 示 , 我 们 可 以 使 用 一 个 算法 配置 表 来 存储 数据 、 算 法 
和 模型 的 映射 关系 , 将 模型 、 算 法 、 样本 和 特征 的 关系 解 厢 , 使 得 算法 可 以 复 用 。 


用 户 画像 ”用户 画 像 系统 和 推荐 系统 关系 非常 密切 。 用户 画 像 是 一 个 标签 化 的 用 户 模型 ， 
用 于 描述 用 户 的 基础 属性 、 生 活 习性 和 关系 链 等 信息 , 对 于 业务 了 解 用 户 具 有 非常 重要 
的 意义 , 可 以 帮助 大 幅度 的 提升 推荐 的 准确 度 。 在 设计 推荐 系统 的 同时 ,也 需要 重视 对 
画像 系统 的 构建 。 


7.2.2 面向 深度 学 习 的 推荐 系统 架构 设计 


深度 学 习 近 年 来 在 图 像 处 理 、 自 然 语 言 理解 、 语 音 识 别 和 在 线 广告 等 领域 均 取得 了 
突破 性 的 进展 ， 如 何 将 深度 学 习 有 效 地 用 于 推荐 系统 ， 提 高 推荐 系统 的 准确 性 和 用 户 
满意 度 是 面向 深度 学 习 的 推荐 系统 架构 设计 需要 考虑 的 主要 问题 。 和 传统 的 推荐 系统 相 
E, 面向 深度 学 习 的 推荐 系统 有 着 自动 提取 特征 、 建 模 用 户 时 序 行为 和 融合 多 方 数据 源 
的 优点 。 

面向 深度 学 习 的 推荐 系统 中 使 用 的 常用 算法 有 : 受 限 玻 尔 兹 曼 机 (RBM)、 自 编码 器 
CAE) 、 卷 积 神经 网 络 (CNN)、 深 度 神经 网 络 CDNNO 和 宽 深 学 习 (Wide & Deep) 等 。 


图 7.8 面向 深度 学 习 的 推荐 系统 架构 设计 


一 个 典型 的 面向 深度 学 习 的 推荐 系统 架构 如 图 7.8 所 示 , 和 前 一 节 提 到 的 架构 相 比 ， 
面向 深度 学 习 的 推荐 系统 架构 增加 了 特征 提取 和 模型 服务 两 个 模块 。 其 中 , 特征 提取 模 
块 用 于 从 样本 中 构建 特征 , 提升 模型 效果 ; 模型 服务 模块 用 于 服务 深度 学 习 框架 的 预测 
请 求 , 对 其 进行 适 配 。 总 体 的 学 习 流 程 与 前 一 节 类 似 , 通过 数据 上 报 得 到 的 样本 先 通 过 
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特征 提取 模块 构建 特征 , 然后 通过 模型 训练 得 到 模型 。 特征 提取 模块 得 到 的 特征 一 方面 
保存 到 离线 存储 后 用 于 模型 训练 一 方面 存储 到 线 上 存储 用 于 预测 时 调用 。 模 型 预测 流 
程 先 由 模型 服务 模块 拉 取 模型 到 线 上， 再 通过 A/B 测试 模块 和 实时 推荐 模块 接收 来 自 
业务 的 请 求 ,通过 模型 服务 模块 得 到 预测 结果 返回 给 业务 。 
特征 提取 AER 7.2 中 的 架构 ,面向 深度 学 习 的 推荐 系统 架构 在 训练 流程 中 增加 了 一 
个 很 重要 的 模块 : 特征 提取 。 深 度 学 习 的 最 大 优势 之 一 ， 就 是 能 够 通过 一 种 通用 的 模型 
学 习 到 数据 的 特征 ， 自 动 获取 到 数据 的 高 层次 表示 而 不 依赖 于 人 工 设计 特征 。 常 见 的 特 
征 提取 方法 有 : 多 层 感知 机 、 卷 积 神经 网 络 和 循环 神经 网 络 等。 

针对 不 同 的 业务 ， 特 征 提取 模块 会 有 不 同 的 任务 。 比 如 , 在 第 6.1 节 介绍 的 Google 
的 手机 APP 推荐 中 ， 通 过 查询 和 条 目的 特征 学 习 到 一 个 低 维 稠密 的 霸 入 向 量 ， 用 于 泛 
化 模型 中 的 输入 。 又 比如 YouTube 的 视频 推荐 中 ,输入 是 用 户 浏览 历史 、 搜 索 历 史 、 人 
统计 学 信息 和 其 余 上 下 文 信息 组 成 的 输入 向 量 , 输出 则 是 用 于 离线 训练 的 概率 值 以 及 
用 于 线 上 的 用 户 向 量 。 

和 第 7.2.1 节 中 的 离线 训练 模块 相 比 ， 本 节 介绍 的 特征 提取 使 用 深度 学 习 的 方法 代 
替 了 人 工大 大 减少 了 特征 工程 的 工作 量 ， 而 且 具 有 更 好 的 泛 化 能 力 ， 所 以 是 推荐 系统 
未 来 发 展 的 一 个 重要 的 趋势 。 


用 户 物品 "m 
me 上 | me a |) ow 
WAR | ay [| me || 信息 | | 信息 


图 7.9 利用 深度 学 习 进行 特征 提取 


模型 


网 


从 系统 的 角度 看 , 特征 提取 模块 设计 时 常常 需要 考虑 下 面 两 个 问题 。 首先, 特征 生 
成 的 流水 线 需 要 自动 化 。 和 业务 定义 好 数据 源 的 接口 后 , 特征 提取 模块 定期 地 调用 特征 
提取 任务 生成 特征 ; 其 次 , 需要 有 一 套 特征 管理 系统 对 来 自 不 同业 务 、 使 用 不 同方 法 得 
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到 的 特征 进行 管理 。 实 际 应 用 中 , 一 个 业务 会 有 多 个 推荐 的 场景 ， 一 个 公司 内 会 有 多 个 
业务 ， 这 些 来 自 不 同业 务 的 不 同 推荐 场景 往往 可 以 复 用 某 些 相同 的 特征 。 所 以 ， 设 计 的 
时 候 需 要 考虑 同一 个 特征 被 用 于 多 个 模型 的 训练 的 情况 。 通 过 一 个 特征 管理 系统 , 将 特 
征 提取 模块 得 到 的 特征 注册 到 特征 库 , 这 个 特征 库 负责 管理 原始 特征 以 及 各 种 经 过 特征 
工程 处 理 后 的 特征 , 每 个 特征 用 唯一 的 特征 ID 标识 。 在 进行 特征 工程 的 时 候 , 通过 调用 
特征 ID, 同一 份 原始 特征 可 以 用 于 不 同 的 特征 工程 输入 ; 在 模型 训练 的 时 候 , 经 过 特征 
工程 处 理 的 某 一 份 特征 又 可 以 被 多 个 算法 使 用 。 


模型 服务 ”和 前 一 节 的 架构 相 比 , 面向 深度 学 习 的 推荐 系统 架构 增加 了 模型 服务 这 个 模 
Sho 该 模块 的 主要 功能 是 对 业务 请 求 进行 预测 。 类 似 于 7.2.1 节 中 的 实时 计算 模块 , 加 载 
推荐 模型 进行 预测 计算 , 之 所 以 把 模型 服务 模块 独立 出 来 , 是 因为 区 别 于 传统 的 机 器 学 
JER, 目前 的 深度 学 习 框 架 往往 同时 提供 了 模型 预测 服务 的 功能 , 我 们 可 以 在 现 有 的 
基础 上 , 封装 后 使 用 在 业务 中 。 

模型 服务 提供 了 加 载 模型 、 请 求 调用 和 模型 版 本 管理 的 功能 。 首 先 ， 加载 模 型 到 服 
务 进程 ,等 待 请 求 调用 ; 其 次 , 提供 一 个 RPC 接口 , 供 业 务 方 请 求 ; B=, 提供 模型 版 
本 管理 的 功能 ,加 载 最 新 的 模型 版 本 ， 同 时 在 某 个 版 本 失败 时 提供 回 滚 的 功能 。 目 前 较 
为 成 熟 的 方案 是 TensorFlow Serving, 提供 了 RPC 框架 、 自 动 模型 版 本 管理 等 的 功能 。 


分 布 式 训练 、 现 有 的 深度 学 习 框 架 大 都 提供 了 分 布 式 计算 的 框架 , 使 用 分 布 式 训练 的 原 
因 是 为 了 使 训练 的 速度 更 快 , 训练 的 模型 更 大 。 在 一 些 场景 ，Google 甚至 已 经 用 到 了 百 
亿 级 的 参数 。 为 了 快速 地 训练 超大 规模 的 模型 , 必须 使 用 分 布 式 的 方式 来 进行 计算 。 


Parameter Server 0:—0--a0 


GOOOoaGo 
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图 7.10 参数 服务 器 架构 


Model 
Workers 
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对 于 大 规模 的 参数 更 新 , 很 重要 的 一 点 是 如 何 更 新 模型 的 分 布 式 存储 和 计算 , 目前 
最 常用 的 解决 方案 是 参数 服务 器 (Parameter Server)。 最 早 版 本 的 参数 服务 器 是 2010 年 
用 在 自然 语言 处 理 中 ,最初 只 是 使 用 了 Memcached 的 分 布 式 (key, value) 作为 同步 机 
制 。 后 来 Google、Microsoft、Baidu、Yahoo、 腾 讯 都 开发 了 各 自 的 版 本 。 其 他 开源 的 还 有 
PS-Lite、Petuum、Glint 等 。 总 的 来 说 , 参数 服务 器 主要 提供 了 下 面 几 个 功能 : (1) 对 参 
数 的 分 布 式 存储 ; (2) 提供 参数 更 新 机 制 (同步 和 异步 ); (3) 对 参数 的 划分 和 放置 。 
典型 的 参数 服务 器 集群 的 架构 如 图 7.10 所 示 , 集群 中 的 节点 可 以 分 为 计算 节点 和 参 
数 服务 节点 两 种 。 其 中 , 计算 节点 将 更 新 参数 的 任务 分 配 到 不 同 节点 上 执行 ; 参数 服务 
节点 采用 分 布 式 存储 的 方式 , 各 自 存储 全 局 参数 的 一 部 分 , 并 作为 服务 方 接 受 计算 节点 
的 参数 查询 和 更 新 请 求 。 


深度 推荐 系统 实用 技巧 除了 上 面 提 到 的 内 容 , 在 实践 过 程 中 , 还 有 一 些 实用 技巧 。 首 
先 从 简单 的 模型 和 特征 开始 训练 , 不 要 一 开始 就 使 用 非常 复杂 的 模型 和 特征 , 这 样 模 型 
会 变 得 非常 难以 训练 ， 从 而 导致 很 长 时 间 看 不 到 模型 的 效果 。 所 以 , 建议 一 开始 使 用 简 
单 的 模型 和 特征 。 如 果 是 从 传统 模型 转 到 深度 学 习 ， 甚 至 可 以 利用 之 前 已 经 验证 过 有 效 
的 特征 输入 到 深度 学 习 系统 中 , 来 帮助 调试 和 改进 模型 效果 。 
注重 训练 效率 。 因 为 深度 学 习 的 训练 是 一 个 迭代 的 过 程 , 要 经 过 多 次 的 调 参 、 验证 ， 
再 调 参 、 再 验证 的 过 程 。 所 以 , 训练 的 代码 效率 非常 重要 , 要 尽 可 能 地 改进 训练 的 效率 ， 
这 样 才能 加 快 迭 代 速 度 , 条 件 允 许 的 话 , 可 以 考虑 分 布 式 或 者 多 GPU 训练 , 所 谓 磨 刀 不 
误 砍 柴 功 。 

注意 模型 的 可 扩展 性 。 对 于 深度 学 习 的 模型 来 说 , 输入 特征 维度 的 大 小 , 一定 程度 
上 决定 了 最 后 模型 的 效果 ， 所 以 要 尽 可 能 选用 可 扩展 的 模型 ,支持 大 规模 的 输入 向 量 ， 
这 样 才能 有 效 地 利用 海量 数据 。 

对 比 公 有 数据 集 上 的 结果 。 公 有 的 数据 集 提供 了 一 个 很 好 的 实验 场 ， 有 很 多 的 论文 
可 以 提供 实验 结果 帮助 我 们 分 析 ，, 如 果 我 们 要 提出 自己 的 新 模型 , 不 要 只 是 在 自己 的 数 
据 集 上 做 , 同时 可 以 试 试 在 公有 数据 集 上 的 效果 。 


7.2.3 ”基于 在 线 训练 的 推荐 系统 架构 设计 


推荐 系统 的 发 展 ， 总 是 伴随 着 业务 的 需求 而 演进 。 前 面 两 节 提 到 的 设计 方案 中 , 我 
们 通过 分 布 式 存储 系统 和 分 布 式 计算 来 提升 处 理 数 据 的 规模 和 训练 的 速度 。 但 是 对 于 一 


第 7 章 推荐 系统 架构 设计 | 195 


些 互 联网 应 用 来 说 , 业务 还 需要 追求 更 快 的 反馈 和 更 大 的 数据 规模 。 比 如 , 假设 一 个 互 
联网 广告 的 场景 , 用 户 的 数量 是 十 亿 级 别 ,推荐 的 广告 内 容 是 十 万 级 别 ， 对 于 这 样 的 规 
模 ， 即 使 使 用 了 分 布 式 训练 ,模型 训练 的 速度 也 必须 以 小 时 计算 。 而 对 于 业务 来 说 , 我 
们 希望 用 户 对 于 上 一 个 广告 的 反馈 (喜欢 或 者 不 喜欢 , 有 没有 点 击 ), 可 以 很 快 地 用 于 下 
一 个 广告 的 推荐 中 。 这 就 要 求 我 们 用 另 一 种 方法 来 解决 这 个 问题 , 这 个 方法 就 是 在 线 训 
练 。 

基于 在 线 训练 的 推荐 系统 架构 适合 于 广告 和 电 商 等 高 维度 大 数据 量 且 对 实时 性 要 求 
很 高 的 场景 。 相 比较 基于 离线 训练 的 推荐 系统 (图 7.2)， 基 于 在 线 训 练 的 推荐 系统 不 区 
分 训练 和 测试 阶段 ,， 每 个 回合 都 在 学 习 , 通过 实时 的 反馈 来 调整 策略 。 一 方面 ,在 线 训 
练 要 求 其 样本 、 特征 和 模型 的 处 理 都 是 实时 的 ,以 便 推荐 的 内 容 更 快 地 反映 用 户 实时 的 
喜好 。 比 如 ,五 分 钟 前 发 生 的 新 闻 事件 ,就 可 以 通过 用 户 的 喜好 推送 到 不 同 的 用 户 ; 另 
一 方面 , 因为 在 线 训练 并 不 需要 将 所 有 的 训练 数据 都 存储 下 来 , 所 以 不 需要 巨大 的 离线 
存储 开销 , 使 得 系统 具有 很 好 的 伸缩 性 ,可 以 支持 超大 的 数据 量 和 模型 。 对 于 数据 量 很 
大 的 业务 场景 , 基于 在 线 训练 的 推荐 系统 提高 了 处 理 问题 规模 的 上 限 ， 从 而 能 够 带 来 更 
多 的 收益 。 

最 新 的 推荐 系统 演进 , 是 将 深度 学 习 和 在 线 学 习 结 合 起 来 。 充 分 利用 两 者 的 优点 , 使 
得 推荐 系统 既 能 够 处 理 海量 的 用 户 和 物品 数据 , 又 能 够 自动 从 这 些 数 据 中 提取 出 特征 用 
于 训练 , 找 出 推荐 对 象 的 相关 性 , 并 且 快 速 响应 用 户 的 反馈 。 

基于 在 线 训练 的 推荐 系统 中 使 用 的 常用 的 算法 有 : FTRL-Proximal、AdPredictor、 
Adaptive Online Learning 和 PBODL 等 。 


图 7.11 基于 在 线 训练 的 推荐 系统 架构 设计 


样本 处 理 和 基于 离线 训练 的 推荐 系统 相 比 , 在 线 训练 在 数据 上 报 阶 段 的 主要 不 同体 现 
在 样本 处 理 上 。 对 于 两 者 来 说 , 数据 的 采集 并 没有 太 多 不 同 ,都 是 通过 在 业务 中 埋 点 然 
后 实时 上 报到 推荐 系统 。 不 同 的 是 ,对 于 离线 训练 来 说 ， 上报 后 的 数据 先是 被 存储 到 一 
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个 分 布 式 文件 系统 ,然后 等 待 离线 计算 任务 来 对 样本 进行 处 理 ; 对 于 在 线 训练 来 说 , 对 
样本 的 去 重 、 过 滤 和 采样 等 计算 都 需要 实时 进行 。 

实时 训练 对 于 样本 的 正确 性 、 采 和 集 质量 和 采样 分 布 , 有 着 更 严格 的 要 求 。 实 际 的 业 
务 中 上 报 的 数据 因为 种 种 原因 可 能 会 出 现 数据 缺失 、 元 余 和 错 报 等 情况 , 这 就 要 求 样本 
处 理 能 够 容忍 缺失 和 错 报 ,以 及 过 滤 掉 见 余 的 数据 。 同 时 对 于 过 于 稀疏 的 数据 或 者 噪音 
数据 ,系统 会 对 其 进行 丢弃 。 另 外 ,因为 在 线 学 习 的 算法 一 般 都 是 使 用 已 经 观察 到 的 一 
个 数据 窗口 的 数据 来 对 测试 的 数据 进行 预测 , 非常 容易 进行 过 拟 合 , 所 以 在 样本 处 理 的 
时 候 需 要 使 实时 采样 得 到 的 样本 的 分 布 和 累积 的 样本 分 布 尽量 相似 , 以 避免 模型 的 效果 
变 差 。 另 一 方面 ， 对 于 常用 的 操作 ， 可 以 提取 通用 的 采样 规则 ， 以 便 不 同 算法 程序 员 自 
定义 采样 需要 。 


实时 特征 ”实时 特征 模块 通过 实时 处 理 样本 数据 拼接 训练 需要 的 特征 构造 训练 样本 , 输 
入 流 式 训练 模块 用 于 更 新 模型 。 该 模块 的 主要 的 功能 是 特征 拼接 和 特征 工程 。 


特征 拼接 对 特征 进行 读 取 、 选 择 、 组 合 等 操作 。 如 图 7.12 所 示 , 首先 根据 算法 的 配 
置 ， 从 样本 中 选择 需要 的 特征 ， 从 相应 的 存储 接口 读 取 该 特征 ,将 读 取 到 的 用 户 、 物 品 
和 场景 特征 拼接 在 一 起 ,以便 下 一 步 处 理 。 然 后 根据 从 拼接 好 特征 的 样本 中 进行 特征 选 
择 、 特 征 交 又 等 操作 , 并 将 处 理 的 结果 写 入 流 处 理 消息 队列 , 用 于 输出 至 模型 训练 和 模 
型 评估 模块 进行 流 式 训练 。 特 征 工程 按照 特征 组 合 规则 , 对 特征 进行 内 积 、 外 积 和 笛 卡 
尔 积 等 操作 , 构造 出 新 的 特征 , 同时 将 新 的 特征 和 特征 库 写 入 到 特征 配置 表 中 。 


58 — 89 — 0) 


图 7.12 在 线 学 习 之 实时 特征 处 理 


数据 的 采样 和 特征 处 理 一 般 是 以 时 间 窗 口 的 形式 进行 。 窗 口 的 大 小 , 取决 于 模型 的 
效果 和 业务 实时 性 要 求 之 间 的 折 中 。 开发 者 可 以 根据 业务 的 情况 选择 一 个 适合 的 时 间 窗 
口 ， 每 搜集 一 定量 的 用 户 数据 就 更 新 一 次 模型 。 对 于 大 规模 的 特征 集合 ， 可 以 将 模型 参 
数 存储 在 参数 服务 器 中 。 
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流 式 训练 、 流 式 训 练 模块 的 主要 作用 是 使 用 实时 训练 样本 来 更 新 模型 。 推荐 算法 中 增 量 
更 新 部 分 的 计算 , 通过 流 式 计算 的 方式 来 进行 更 新 。 在 线 训练 的 优势 之 一 ,是 可 以 支持 
模型 的 稀疏 存储 。 虽然 训 练 使 用 的 特征 向 量 的 维度 可 能 是 上 十 亿 维 , 但 是 对 于 某 一 个 样 
本 实例 来 说 可 能 只 有 几 百 个 非 零 值 。 这 使 得 在 线 训练 可 以 对 大 规模 的 数据 集 进 行 流 式 训 
练 ， 每 个 训练 样本 只 需要 被 处 理 一 次 。 模 型 方面 ，FTRL-Proximal 结合 了 OGD (Online 
Gradient Descent) 和 RDA (Regularized Dual Averaging) 的 优点 , 在 准确 度 和 稀疏 性 上 比 
这 两 个 模型 都 更 优 。 同 时, 在 工程 中 使 用 二 次 采样 等 技巧 来 提高 训练 的 速度 和 减少 模型 
的 大 小 。 

训练 方面 ,在 线 模 型 不 一 定 都 是 从 零 开 始 训练 ,而 是 可 以 将 离线 训练 得 到 的 模型 参 
数 作为 基础 , 在 这 个 基础 上 进行 增 量 训练 。 这 样 , 不 但 缩短 了 在 线 训练 模型 收敛 的 时 间 ， 
也 避免 了 训练 启动 阶段 模型 不 佳 的 情况 。 


模型 存储 和 加 载 模型 一 般 存储 在 参数 服务 器 中 。 模 型 更 新 后 , 将 模型 文件 推送 到 线 上 
存储 , 并 由 线 上 服务 模块 动态 加 载 。 
另外 , 基于 在 线 训练 的 推荐 系统 还 需要 考虑 的 问题 有 下 面 几 个 方面 。 


模型 健壮 性 ”在线 学 习 对 模型 健壮 性 有 更 高 的 要 求 。 因 为 在 线 学 习 使 得 推荐 系统 的 反应 
变 得 更 加 敏捷 , 但 是 同时 对 于 脏 数 据 或 者 扰动 也 变 得 更 加 敏感 , 实时 处 理 的 数据 流 中 的 
任何 一 个 扰动 或 者 故障 都 可 能 给 模型 训练 或 模型 预测 造成 干扰 ,进而 影响 推荐 结果 。 这 
就 要 求 在 线 学 习 模型 和 算法 足够 强壮 , 能 够 应 对 训练 数据 中 的 波动 。 常 用 的 方法 有 正则 
化 、 自 适应 学 习 率 、 低 覆盖 率 的 特征 过 滤 等 。 从 特征 方面 , 也 可 以 引入 统计 量 作为 特征 ， 
以 此 作为 平滑 手段 。 


7.2.4 面向 内 容 的 推荐 系统 架构 设计 


推荐 引擎 使 得 内 容 分 发 的 方式 产生 了 重大 的 变革 , 从 早期 的 门户 网 站 , 到 通过 微 博 、 
朋友 圈 传 播 的 资讯 , 直至 以 今日 头条 、 拌 音 为 代表 的 个 性 化 资讯 ,推荐 系统 使 得 用 户 获 
取 有 趣 内 容 变 得 更 加 容易 。 

针对 内 容 分 发 设计 的 推荐 系统 , 和 其 他 推荐 系统 相 比 , 对 于 内 容 处 理 有 更 高 的 要 求 。 
常见 的 做 法 是 将 要 用 于 推荐 的 内 容 进 行 处 理 后 表示 成 神经 网 络 可 以 识别 的 向 量 和 标签 ， 
然后 输入 到 召回 和 排序 模型 中 使 用 。 
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内 容 池 
743 面向 内 容 的 推荐 系统 架构 设计 


新 闻 资 讯 对 于 新 闻 资 讯 类 的 推荐 ,因为 新 闻 的 时 效 性 要 求 很 高 , 所 以 对 内 容 的 理解 非 
常 重要 。 常 用 的 内 容 理解 工具 有 文本 分 类 、 关 键 词 提取 和 主题 提取 等 ， 分 别 从 不 同 层次 
对 新 闻 内 容 进行 理解 。 文 本 分 类 是 粒度 较 粗 的 一 个 特征 , 用 于 感知 用 户 兴趣 的 类 别 。 关 
键 词 提取 进一步 理解 用 户 更 细 的 兴趣 ， 比 如 某 个 明星 或 者 球 队 。 主 题 提 取 则 是 从 语义 的 
方面 丰富 对 内 容 的 理解 ,使 得 对 用 户 的 兴趣 覆盖 更 全 面 。 


视频 音乐 ”要 对 视频 和 音乐 进行 推荐 ,首先 需要 对 内 容 进行 理解 。 可 以 使 用 第 6.1 节 中 
用 到 的 方法 , 通过 word2vec 等 方法 将 原 视频 或 音频 表示 为 一 个 低 维 稠密 的 嵌入 向 量 , 然 
后 通过 协同 过 滤 来 计算 物品 之 间 的 相似 度 用 于 召回 阶段 , 然后 再 使 用 DNN 等 算法 进行 
精 排 。 


特征 主题 
内 容 抓 取 
CONES MUN 
内 容 池 


图 7.14 用 于 推荐 的 内 容 池 


广告 购物 针对 广告 和 购物 的 场景 ， 很 重要 的 一 件 事 情 就 是 对 广告 物品 和 商品 的 识别 。 
比如 , 一 个 典型 的 服装 广告 图 片 ， 可 能 会 包含 模特 、 衣 服 和 广告 词 等 因素 。 如 果 能 对 男 
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女性 别 、 服 装 分 类 、 服 饰 分 类 以 及 广告 词 进行 OCR 识别， 就 能 够 更 好 地 理解 广告 的 内 
X, 从 而 产生 更 精准 的 推荐 。 

文字 识别 (Optical Character Recognition) 的 作用 是 识别 图 片 中 的 文字 内 容 , 提取 广 
告 和 商品 等 图 片 中 的 语义 特征 , 加 深 对 图 片 创意 和 用 户 偏 好 的 理解 ， 从 而 更 好 地 对 物品 
进行 推荐 。 目 前 在 文本 检测 领域 , 很 多 基于 深度 卷 积 神经 网 络 的 算法 已 经 成 为 主流 的 方 
法 。 


内 容 抓 取 如 图 7.14 所 示 , 内 容 抓 取 模块 负责 从 互联 网 或 者 自 属 业 务 中 抓 取 需 要 推荐 的 
内 容 存 储 到 内 容 池 中 。 一 般 来 说 , 这 一 功能 是 由 分 布 式 爬 忠 来 实现 的 。 抓 取 的 关键 在 于 
统一 数据 格式 。 虽 然 我 们 抓 取 的 内 容 可 能 是 来 自 不同 的 数据 源 ， 有 着 不 同 的 格式 ,但 是 
为 了 后 续 的 使 用 ， 需 要 对 数据 的 存储 格式 进行 统一 规范 。 第 一 ， 要 规范 抓 取 内 容 的 字段 
和 格式 ， 仔 细 考 虑 业务 和 算法 需要 的 字段 ; 第 二 ,要 对 内 容 字段 进行 标准 化 的 处 理 ， 比 
如 存储 成 相同 的 音 视频 格式 或 者 文本 编码 ; 第 三 ,选择 合适 的 存储 介质 保存 ; 第 四 ， 预 
留 一 些 字段 用 于 不 时 之 需 , 避免 在 抓 取 过 程 中 直到 没有 字段 可 用 的 情况 。 另外, 抓 取 过 
程 中 需要 重视 版 权 问 题 。 

抓 取 内 容 后 , 通常 还 需要 对 内 容 池 中 的 内 容 建 立 索 引 。 通过 提取 内 容 的 关键 特征 作 
为 索引 ,使 得 推荐 系统 其 他 模块 在 使 用 内 容 池 时 候 能 够 根据 内 容 索 引 找到 相应 的 内 容 。 


内 容 生成 ” 随 着 内 容 分 发 的 进一步 发 展 ， 推 荐 系统 甚至 可 以 和 内 容 生 成 相 结合 ,来 为 不 
同 用 户 生成 定制 的 内 容 。 比 如 , 在 广告 的 场景 里 面 ， 可 以 针对 用 户 的 喜好 挑选 背景 和 广 
告 词 ; 在 电影 推荐 里 面 , 可 以 针对 不 同 用 户 生成 不 同 题材 的 海报 , 例如 同一 部 电影 里 有 
两 个 主演 , 对 于 不 同 的 观众 , 推荐 系统 甚至 可 以 决定 在 海报 中 使 用 哪个 主演 作为 海报 的 
内 容 。 


7.3 ”推荐 系统 常用 组 件 


7.3.1 ”数据 上 报 常用 组 件 


Apache Kafka 是 一 个 开源 的 流 处 理 平台 。 它 提供 了 对 实时 数据 源 的 高 吞吐 低 延 迟 的 
统一 处 理 框架 。 从 逻辑 上 来 看 , Kafka 是 对 多 生产 者 多 消费 者 队列 的 分 布 式 实现 。 消息 通 
WEB (Topic) 来 进行 管理 , 一 个 主题 可 以 有 多 个 生产 者 和 多 个 消费 者 。 生 产 者 产生 消 
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息 并 推送 到 某 一 主题 , 订阅 这 一 主题 的 消费 者 则 从 主题 中 拉 取 消息 。 


生产 者 消费 者 


EH 


生产 者 消费 者 


7.15 Apache Kafka 逻辑 架构 


7.3.2 ”离线 存储 常用 组 件 


HDFS (Hadoop Distributed File System) 是 目前 使 用 极为 广泛 的 分 布 式 文件 系统 。 它 
的 设计 目标 是 低 成 本 、 高 可 靠 性 和 高 吞吐 率 。 其 容错 机 制 使 得 HDFS 可 以 基于 廉价 的 硬 
件 来 构建 分 布 式 文件 系统 , 在 即使 有 组 件 失 效 时 仍然 可 以 提供 可 靠 存储 。 

Hive 是 一 个 基于 Hadoop 的 数据 仓库 , 提供 了 比较 完整 的 SQL 功能 , 使 用 HDFS 作 
为 存储 底层 。 其 设计 目标 是 方便 熟悉 SQL 的 工程 师 对 数据 进行 操作 而 不 需要 进行 复杂 
的 编程 。Hive 支持 的 数据 规模 可 以 达到 上 百 PB. 并 且 支 持 结 构 化 数据 的 存储 。 


7.3.3 ”离线 计算 常用 组 件 


Apache Spark 是 一 个 基于 内 存 数据 处 理 的 高 性 能 分 布 式 计算 框架 ， 它 提供 简单 、 灵 
活 、 强 大 的 API 帮助 用 户 开发 高 效 的 程序 用 于 复杂 的 数据 分 析 。Spark 提供 了 和 Hadoop 
类 似 的 MapReduce 计算 模型 , 但 是 和 Hadoop 不 同 的 是 ，Spark 使 用 了 基于 内 存 的 中 间 
数据 结构 , 使 得 它 能 更 好 地 支持 需要 多 轮 迭 代 的 工作 负载 。 

TensorFlow 是 一 个 开源 的 软件 框架 , 用 于 对 数据 流 图 的 数值 计算 。 它 提供 了 强大 而 
多 样 的 API 供 机 器 学 习 研 究 者 来 开发 各 种 应 用 。 

分 布 式 TensorFlow 提供 了 对 参数 服务 器 的 支持 。 和 其 他 参数 服务 器 不 一 样 的 是 ， 
TensorFlow 的 参数 服务 器 对 参数 的 更 新 是 隐 式 的 , 也 就 是 说 , 程序 员 不 用 手动 去 push 和 
pull 这 些 参数 。 这 使 得 基于 TensorFlow 的 参数 服务 器 的 开发 变 得 尽 可 能 简单 。 而 编写 分 
布 式 TensorFlow 程序 的 主要 任务 , 也 就 成 了 如 何 将 参数 合理 地 分 布 到 不 同 的 参数 服务 器 
E, 通过 集群 配置 接口 、 指 定 设 备 接口 和 同步 模式 接口 来 进行 参数 配置 。 
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7.3.4 ”在 线 存 储 常用 组 件 


Redis 是 一 个 开源 的 基于 内 存 数据 结构 的 存储 系统 , 它 可 以 用 作 数 据 库 、 缓存 和 消息 
中 间 件 , 是 目前 最 为 常用 的 key-value 数据 库 之 一 。 

Memcached 是 一 种 通用 的 高 性 能 分 布 式 内 存 缓存 系统 。 它 一 般 用 于 将 动态 的 数据 组 
存 到 内 存 中 帮助 提升 读 取 外 部 数据 的 速度 。Memcached 提供 基于 内 存 的 key-value 存储 。 

RocksDB 是 另外 一 个 高 性 能 的 key-value 数据 库 。 它 基于 LevelDB 改进 , 针对 多 核 和 
固态 硬盘 进行 了 优化 , 使 其 对 于 IO 密集 的 负载 非常 友好 。 

共享 内 存 是 最 基础 的 存储 方式 之 一 ,如 果 合 理 使 用 ， 可 以 将 数据 放置 在 离 计 算 尽 可 
能 近 的 位 置 。 实 际 使 用 中 , 配合 数据 拉 取 需要 有 一 些 定制 的 开发 。 


7.3.5 ”模型 服务 常用 组 件 


TensorFlow Serving 可 以 用 于 搭建 机 器 学 习 模 型 的 服务 , 它 是 面向 生产 环境 设计 的 ， 
灵活 而 高 效 。TensorFlow Serving 提供 了 和 TensorFlow 模型 的 无 颖 衔接 ， 其 主要 特点 有 
自动 加 载 新 模型 、 批 量 处 理 请 求 、 可 水 平 扩展 等 。 


7.3.6 ”实时 计算 常用 组 件 


Apache Storm 是 一 个 开源 的 分 布 式 实时 计算 系统 。 它 提供 了 简单 易 用 的 编程 模型 ， 
使 得 数据 的 实时 流 处 理 变 得 更 简单 ， 并 且 可 以 方便 对 计算 拓扑 进行 管理 和 扩展 。 另 外 ， 
‘GA Apache Kafka 之 间 可 以 很 好 地 适 配 。 其 常见 的 应 用 场景 为 数据 实时 统计 、 聚 合 分 
析 、 模 型 预测 等 。 

Spark Streaming 是 对 Spark 核心 API 的 一 个 扩展 ， 它 提供 了 对 实时 数据 流 的 可 扩 
展 、 高 吞吐 、 高 可 靠 的 流 处 理 。Spark Stream 对 数据 流 提供 了 一 个 DStream 的 抽象 , 方 
便 开 发 者 对 流 式 数据 进行 处 理 。 


7.4 ”推荐 系统 常见 问题 


7.4.1 ”实时 性 
在 基于 离线 训练 的 推荐 系统 架构 里 面 , 业务 数据 需要 通过 离线 存储 和 离线 训练 两 个 
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耗 时 较 长 的 模块 , 所 以 整个 模型 迭代 的 过 程 至 少 是 以 小 时 为 周期 的 。 这 种 模式 使 得 数据 
的 时 效 性 受到 了 很 大 的 限制 , 仅 适 用 于 对 数据 时 效 性 要 求 不 高 的 业务 场景 。 

针对 这 个 问题 , 可 以 使 用 基于 在 线 训练 的 推荐 系统 里 面 的 架构 对 特征 进行 实时 提取 
和 实时 拼接 , 这 样 基本 可 以 做 到 秒 级 的 特征 反馈 , 适用 于 捕捉 用 户 的 短 时 兴趣 。 


74.2 BR 


对 于 推荐 系统 而 言 , 大 多 数 算法 关注 的 都 是 如 何 提高 推荐 算法 准确 性 , 却 忽略 了 推荐 结 
果 的 多 样 性 ， 结 果 是 给 用 户 推荐 的 结果 越 来 越 同 质 化 ， 使 得 用 户 的 新 鲜 感 降低 ， 最 终 影响 用 
户 的 使 用 体验 。 以 购物 为 例 ， 给 用 户 推荐 的 物品 越 来 越 集中 ， 很 难 激发 用 户 新 的 购物 需求 。 
所 以 , 推荐 内 容 的 多 样 性 , 对 于 用 户 长 期 的 满意 度 提高 , 有 着 积极 和 重要 的 影响 。 

常见 的 多 样 性 算法 有 热传导 、 二 次 优化 、 社会 化 网 络 等 。 通过 设 定 合理 的 相似 性 、 集 
中 指数 和 覆盖 度 , 来 提高 推荐 结果 的 多 样 性 和 新 颖 性 。 


7.4.3 ”了 曝光 打击 和 不 良 内 容 过 滤 


推荐 系统 给 用 户 带 来 了 便利 , 帮助 用 户 更 好 更 快 地 发 现 自己 感 兴趣 的 信息 。 但 是 一 
个 平台 上 的 用 户 内 容 , 并 不 总 是 积极 健康 的 。 对 于 一 个 影响 力 巨大 的 互联 网 平台 ， 有 责 
任 对 不 良 内 容 进 行 过 滤 , 对 恶俗 的 内 容 进 行 曝光 打击 ,以 传递 正确 的 价值 观 。 对 于 谣言 
和 色情 等 违法 内 容 , 应 坚决 进行 过 滤 。 对 于 恶俗 、 恶 搞 和 “标题 党 ”等 内 容 , 应 降低 这 些 
类 别 的 权重 。 虽 然 对 恶俗 的 内 容 进行 曝光 打击 会 影响 到 用 户 时 长 ,但 是 ,一 个 成 功 的 应 
用 程序 需要 关注 自己 的 品牌 形象 , 并 为 用 户 带 来 长 期 的 、 有 益 的 价值 。 


7.4.4 ”评估 测试 


模型 准备 就 绪 后 ,一 般 会 先 通过 离线 指标 来 评估 模型 的 好 坏 , 然后 再 决定 能 否 上 线 
测试 。 离线 算法 评估 常见 的 指标 包括 准确 率 、 覆盖 度 、 多 样 性 、 新 颖 性 和 AUC 等 。 在线 
测试 一 般 通 过 A/B 测试 进行 , 常见 的 指标 有 点 击 率 、 用 户 停留 时 间 、 广 告 收 入 等 , 需要 
注意 分 析 统 计 显著 性 。 同 时, 需要 注意 短期 的 指标 和 长 期 的 指标 相 结合 , 一 些 短期 指标 
的 提升 有 时 候 反 而 会 导致 长 期 指标 下 降 。 比 如 , 经 常 推荐 美女 或 者 搞笑 类 的 内 容 会 带 来 
短期 的 点 击 率 提高 , 但 是 可 能 会 引起 长 期 的 用 户 粘性 下 降 。 设计 者 需要 从 自己 的 产品 角 
度 出 发 , 根据 产品 的 需要 制定 评估 指标 , 这 样 才能 更 好 地 指导 推荐 系统 的 优化 方向 。 


后 dd 


根据 作者 的 经 验 ， 推 荐 系统 是 一 个 结合 了 产品 设计 、 算 法 设计 、 架 构 设 计 、 交 互 设 
计 的 复杂 系统 ， 并 不 能 仅仅 依赖 算法 的 提升 。 一 般 来 说 ,， 若 读者 需要 规划 一 个 应 用 于 线 
上 的 推荐 系统 , 需要 注意 以 下 问题 : 

1) 推荐 系统 的 应 用 场景 

作者 认为 推荐 系统 是 平台 或 者 APP 的 辅助 配套 技术 之 一 ， 用 来 帮忙 用 户 挖掘 多 样 
性 的 内 容 ， 而 不 能 夸大 推荐 系统 的 功能 ， 过 分 依赖 推荐 系统 。 首 先 平台 需要 有 足够 规模 
的 内 容 生产 生态 , 推荐 系统 的 个 性 化 分 发 才 有 意义 ; 其 次 如 果 平 台 在 细 分 领域 过 于 垂直 ， 
内 容 单一 , 其实 也 无 需 引 入 推荐 系统 。 

2) 精准 推荐 依赖 完善 的 产品 设计 

提升 推荐 准确 度 不 能 仅仅 依靠 算法 。 还 需要 产品 体系 上 的 支持 , 最 核心 的 两 个 问题 
就 是 : a) 准确 和 完善 的 数据 上 报 体系 。 只 有 丰富 的 数据 才能 支撑 推荐 系统 的 建立 。b) 合 
理 的 正 负 反馈 交互 机 制 。 推荐 系统 中 一 大 难点 就 是 收集 用 户 的 兴趣 , 并且 兴趣 包括 了 正 
向 的 兴趣 和 负 向 的 兴趣 。 刚 刚 开 始 搭建 推荐 系统 时 , 收集 正 向 的 兴趣 会 非常 重要 ， 而 当 
推荐 系统 开始 迭代 优化 时 , 负 向 兴趣 的 收集 也 同样 重要 。 

3) 更 多 数据 VS 更 好 的 模型 

更 多 数据 VS 更 好 的 模型 在 很 多 文章 中 均 有 所 提 及 。 算法 工程 师 往往 会 希望 通过 模 
型 的 优化 提升 最 后 的 效果 , 但 是 实际 上 往往 调整 之 后 并 没有 明显 提升 。 相 反 , 他 们 发 现 
增加 一 些 数据 能 提高 已 在 用 的 算法 的 预测 精确 性 。 有 许多 增加 更 多 数据 的 途径 ，Netflix 
是 通过 增加 特征 的 数量 和 类 型 ， 这 样 能 够 提高 问题 空间 的 维度 。 谷 歌 也 曾经 说 : Google 
并 没有 更 好 的 算法 , 只 是 有 更 多 数据 而 已 。 但是, 在 真实 的 Netflix 应 用 场景 中 , 增加 超 
过 200 万 的 训练 样本 几乎 没有 什么 效果 。 所 以 关于 更 多 数据 与 更 好 算法 识 优 熟 劣 的 讨论 
并 没有 一 定 的 结果 。 更 多 数据 能 够 形成 更 多 训练 样本 。 当 数据 增长 到 一 定量 级 之 后 ， 带 
有 巨 量 特征 的 复杂 模型 会 导致 “high variance”, 但 是 在 大 多 数 情况 下 这 还 是 有 用 的 。 有 
时 ， 你 需要 更 多 数据 ， 有 时 你 也 需要 改进 你 的 算法 ， 有 时 两 种 没有 什么 区 别 ， 过 分 专注 
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于 一 个 则 另外 一 个 会 离 优化 越 远 。 

4) 推荐 的 召回 策略 多 优 于 少 

协同 过 滤 被 认为 是 目前 最 经 典 也 最 有 效 的 推荐 算法 , 往往 大 部 分 推荐 系统 在 召回 阶 
段 都 使 用 该 技术 。 但 是 在 召回 策略 上 ， 不 能 依赖 单一 的 召回 方法 ， 例 如 ， 可 以 通过 标签 
或 其 他 内 容 属 性 进行 召回 。 较 多 召回 策略 一 般 都 会 优 于 较 少 的 召回 策略 。 

5) 推荐 系统 也 需要 规则 干预 

以 视频 推荐 系统 来 说 , 算法 一 般 都 会 倾向 于 推荐 点 击 率 高 的 作品 。 但 是 很 遗憾 ,高 点 
击 的 作品 往往 会 夹杂 暴力 色情 等 内 容 。 所 以 推荐 系统 往往 需要 制定 很 多 策略 把 不 适合 的 
内 容 过 滤 掉 。 另 外 ,推荐 系统 也 会 倾向 于 推荐 同 质 化 的 作品 ,所 以 往往 又 需要 对 同类 作 
品 进行 推荐 频次 的 限制 。 这些 看 似 简单 的 规则 ,实际 上 会 大 大 增加 推荐 系统 的 复杂 度 。 


